治理之智 | 美国如何用“安全评测”重塑AI治理秩序_科技资讯

治理之智 | 美国如何用“安全评测”重塑AI治理秩序

创始人

2026-05-09 18:24:15

0次

导语：

2026年5月5日，商务部NIST下属的AI标准与创新中心（CAISI）与Google DeepMind、微软、xAI签署新协议，连同此前已签约的Anthropic和OpenAI，美国五大AI实验室至此全部纳入联邦政府的“模型上线前安全审查”体系。

表面上看，这是一套技术评测机制：模型发布前，政府专家在保密设施里测试它能不能被用来搞网络攻击、造生化武器、自主逃逸。但往深了看，它同时干了三件事：用“国家安全”的名义把评测从自愿变成了事实强制，用更高标准的联邦规则架空了加州等地的州级监管，还顺便把评测标准的制定权锁在了头部企业和联邦手中。

一次签约，三重棋局。以下逐层拆解美国如何用“安全评测”重塑AI治理格局。

一、为什么是现在：Mythos事件与政策加速

（一）直接诱因：Mythos展示自主网络攻击能力，AI从“社会治理议题”升级为“国家安全威胁”

2026年4月7日，Anthropic公布其新一代前沿模型Claude Mythos Preview，并同时宣布因模型能力过于危险而不向公众开放，仅通过“Project Glasswing”项目限定提供给AWS、Apple、Cisco、CrowdStrike、Google、JPMorgan Chase、Linux Foundation、Microsoft、NVIDIA、Palo Alto Networks等约40家机构用于防御性测试。这种“自我限定发布”本身就是一个罕见信号：一家头部AI公司主动声明自己的模型不安全到不能公开。

Mythos引发震动的原因在于它展现出的自主网络攻击能力：能够独立发现零日漏洞（Zero-day，指尚未被公开的系统安全缺陷），并在几乎无需人类指令的情况下编排完整的攻击链路：从漏洞发现到入侵、提权、持久化控制，一条龙完成。

围绕Mythos的国际反应并不一致。图灵奖得主Yoshua Bengio对此持批评立场，但其批评指向的是Anthropic的限定访问模式本身：“私人主体不应替全世界决定基础设施的命运”，并呼吁建立国际监管机构来监督前沿AI模型的开发与部署。

这直接改变了华盛顿对AI风险等级的认知。此前，AI安全讨论的核心议题是偏见、虚假信息、算法歧视等社会治理问题，各方对灾难性风险是否存在、何时降临存有争议。Mythos证明了一件事：前沿AI模型已经具备了破坏关键基础设施的实操能力，金融系统、能源网络、国防通信，都在其攻击范围之内。

（二）政策底层：制度化路径从2024年就已启动，Mythos是催化剂而非起点；白宫行政令在酝酿中

但需要指出的是，Mythos是催化剂，不是起点。如果追溯政策脉络，美国对前沿模型的安全审查其实经历了一条清晰的制度化路径：

这条时间线表明：评测体系的搭建从拜登政府末期就已启动，特朗普政府做的是改变评测方向（从社会风险转向国家安全）并加速落地。Mythos事件则提供了完美的政治时机：在“AI武器化”的恐慌下，原本可能遭遇行业反弹的审查要求，变得名正言顺。

据多家美国媒体5月初报道，白宫已围绕模型上线前安全审查酝酿一项行政令。国家经济委员会主任Kevin Hassett在Fox Business的访谈中明确表示，白宫正在研究一项行政令，“为大家提供一份清晰的路线图”，使未来可能产生漏洞的AI模型在公开发布前必须经过类似FDA药物审批的评估流程；他还表示，这一测试要求“很可能”将适用于所有AI公司。据相关报道，该行政令的筹备早于Mythos发布，但后者的争议明显加速了推进节奏。

二、测什么与怎么测：CAISI评测的技术框架

（一）测什么：上线前脱甲测试逻辑（测底层能力而非表面护栏）；三大维度（Cyber / CBRN / 自主逃逸）

为什么“上线前”至关重要

硅谷的经典信条是“快速迭代，打破常规”（Move fast and break things），即先上线，出了问题再打补丁。传统软件时代，这套逻辑成立，因为Bug造成的伤害通常是可逆的、代价是可承受的。

但对于具备前沿能力的AI模型而言，这套逻辑已经失效。当模型的能力边界触及网络攻防、生化武器知识、自主行为等领域时，其潜在风险的性质与传统软件完全不同，它并非“可能出错”的问题，而是“一旦出错就不可挽回”的问题。对于这类模型，上线前评测不是可选的审慎措施，而是必要的安全底线。

部署前评测相比事后补救，具备三重不可替代的优势：

第一，风险不可逆。传统AI偏见问题可以道歉并调整算法，推荐错误可以赔钱，伤害可修复。但如果Mythos级模型上线后被利用，在数小时内生成了致命病原体合成路径或瘫痪了城市电网，这类伤害无法“撤回”。你无法让恶意行为者“忘记”已经获取的知识，也无法挽回关键基础设施被破坏的后果。对于CBRN和极端网络战风险，只有零次犯错的机会，防线必须前置。

第二，评测深度不可比。模型一旦部署，外部只能通过API与“穿着护栏”的模型交互，你看到的是它“拒绝回答”，而非它“到底会不会”。只有在部署前的保密环境中，对去除安全微调的原始模型进行白盒测试，才能触达其真实能力天花板，防止企业用浅层安全包装掩饰底层风险。

第三，终结攻防的时间不对称。模型公开后，全球黑客有无限时间尝试越狱，企业永远处于“被动救火”状态。而部署前的红队测试为防守方争取了宝贵的封闭窗口，让顶尖安全专家可以提前穷举高危越狱路径并封堵，从源头夺回攻防主动权。

诚然，2-4周的预发布评测窗口会对模型发布节奏产生影响。但考虑到前沿模型所携带的风险量级，即网络战、生化武器、关键基础设施瘫痪，这一等待时间是合理且必要的代价。相比于一次不可逆的安全事故所造成的损失，数周的评测窗口是社会为安全底线支付的最低成本。

“脱甲”测试：看底层能力，不看表面护栏

CAISI评测中最值得注意的要求，是企业需要提供“移除或降低了安全护栏”（reduced or removed safeguards）的模型版本。

为什么要这样做？

1.当前的“安全对齐”（Safety Alignment），即模型拒绝回答危险问题的能力，是浅层的行为约束，可以通过越狱（Jailbreaking）、微调（Fine-tuning）等手段被剥离。

2. 真正决定模型危险性的，是其底层参数中编码的知识和能力，即它“知道”什么、“能做”什么。

3. 因此，只有在移除护栏后测试，才能评估模型被恶意利用后的真实风险上限，以决定该模型是否越过了“国家安全红线”。

三大评测维度

根据公告内容和TRAINS工作组的职责范围，当前评测覆盖三个潜在核心方向：

网络攻防能力（Cyber）：模型是否具备自主发现零日漏洞、编写绕过检测系统的恶意代码、编排多步骤攻击链路的能力。这是Mythos事件后的第一优先级。

生化与核风险（CBRN）：模型是否能提供超越公开信息的详细指引，例如特定病原体的培养条件、化学武器前体物质的非监管获取路径等。评估标准是：模型输出的内容是否显著降低了非专业人员实施此类行为的门槛。

自主逃逸（Autonomy）：模型是否表现出自我复制到外部服务器、欺骗监控程序、秘密获取计算资源等行为倾向。这类测试通常在沙箱环境中进行，观察模型在被赋予一定自主权后的行为模式。

（二）怎么测：标准来源是产业实践（ISO路径 + 可信第三方验证）；“考卷是考生出的”但保证了技术有效性

CAISI不是在“制定”标准，而是在“采纳”标准

一个容易被忽略的事实是：CAISI的评测框架并非商务部官僚凭空创造的产物。它的底层方法论，大量源自美国头部AI企业已经在做的事情。

微软5月5日官方博客（作者为首席负责任AI官Natasha Crampton）中明确写道：

这段话的意思是：微软不仅是“被评测方”，还是“评测方法论的共建者”。

评测基准的两条来源路径

路径一：ISO/IEC国际标准。 Google、微软等长期主导参与ISO/IEC 23894（AI风险管理指南）、ISO/IEC 42001（AI管理体系）等标准的制定。这些标准中关于AI风险的分类方法、测试流程设计，被CAISI直接吸纳为评测基准的底层框架。需要指出的是，中国企业也参与到这些国际标准的制定之中，比如阿里巴巴牵头制定了ISO/IEC TS 25568（生成式人工智能风险应对指南），在因政治原因受阻的治理对话之外寻找技术层面的合作可能。

路径二：通过可信第三方积累评测经验并验证标准。 CAISI体系的另一个重要特征是依托多边治理网络中的可信第三方机构来开展具有公信力的安全评测。微软博客特别提到了与英国AI安全研究所（UK AISI）的合作：“聚焦前沿安全研究，验证高风险功能防护措施的实际效果”；同时提到通过前沿模型论坛（Frontier Model Forum）提升行业透明度，以及依托MLCommons开发跨语言、跨文化的安全基准工具。这些机构既非模型开发者、也非单一国家的监管者，而是以独立第三方的身份参与评测实践，在实操中积累经验、验证评测标准的有效性、并为标准的持续迭代提供实证基础。

“考卷是考生出的”，但这未必是坏事

这种“政企共建标准”的模式会带来一个客观效应：标准天然有利于资源充沛的大企业。Google和微软本来就有完整的红队测试体系、保密环境、安全研究团队，满足CAISI要求的边际成本几乎为零。但对于缺乏这些基础设施的中小型AI公司来说，达标成本可能是不可承受的。

不过，也需要看到另一面：如果标准不基于行业前沿实践来制定，那它要么是纸上谈兵（脱离技术现实），要么是政治产物（服务于非技术目的）。在AI这种技术迭代极快的领域，让最了解技术边界的人参与标准制定，至少保证了评测本身的技术有效性。

互联网时代90%的技术标准都来自产业界的实践。核心问题不在于“企业参与标准制定”，而在于是否有机制确保标准的普适性和包容性，使其不沦为排他性的壁垒。

三、法律效应与治理体系影响

（一）自愿中的强制：三重间接约束（政府采购准入 / 出口许可联动NSTM-4 / 立法预期管理）

从法律文本看，企业签署的是谅解备忘录（MOU）或 早期访问协议（Early Access Agreements），不具备行政许可的法律强制力。NIST公告中也反复使用“合作”（collaboration）而非“监管”（regulation）的措辞。

但这只是表面。实质上，这套协议通过三重间接约束形成了事实性的准入门槛：

第一重：政府采购准入。对于微软（Azure Government Cloud是联邦机密系统核心供应商）、Google（国防部Project Maven等项目深度参与者）来说，通过CAISI评测几乎是维持其联邦合同的前提条件。微软5月5日博客中明确写道，其与CAISI的合作将“直接指导产品设计与部署流程”，这并非“看看就好”的建议，而是要写进产品流程的。

第二重：出口许可联动。与CAISI协议平行推进的，是前沿模型被纳入美国国家安全治理体系。2026年4月23日，白宫科技政策办公室（OSTP）签发NSTM-4备忘录《美国AI模型的对抗性蒸馏》，将境外实体通过代理账号和越狱手段从美国前沿模型中“提取能力”的行为定性为国家安全威胁。NSTM-4本身没有新增任何出口管制措施、实体清单或API访问限制，但它与CAISI体系在叙事上构成了完整的呼应：CAISI管的是“美国模型自身是否带有内生风险”，NSTM-4管的是“美国模型的能力是否会被外部抽走”，一个是对内向的安全审查，一个是对外向的能力守门。两条线索叠加起来，描绘的是一种新的治理预期：前沿AI模型不再是企业可以独立处置的商业资产，无论是上线前的安全状况，还是上线后被访问、被复制的链路风险，都被纳入了政府的密切观察范围。

第三重：立法预期管理。多家媒体报道指出，白宫正酝酿将此类评测以行政令形式固化。ONCD已在协调起草工作。当前的“自愿协议”实际上是在为强制性框架铺路，今天主动配合的企业，明天在规则制定中将获得更大话语权。

将这套机制定性为“自愿”是准确的法律描述，但将其理解为“可选”则不完全符合现实。对于任何想在美国市场维持竞争力的前沿AI实验室来说，这将成为一条“不参与即出局”的事实性准入门槛。

（二）联邦优位：用“国家安全”维度跃迁实现对加州SB 53的制度性架空，不正面冲突但完成权力收编

这套体系更深层的治理影响，在于联邦与州权的立法权博弈。

2025年9月29日，加州州长签署SB 53法案（Transparency in Frontier Artificial Intelligence Act，前沿人工智能透明度法案），核心义务于2026年1月1日生效，部分条款延至2027年1月1日生效。其核心要求包括：前沿AI开发者需公开发布安全管理框架、提交灾难性风险评估报告、建立内部吹哨人保护机制、发生关键安全事件须及时上报，违规罚款最高100万美元/次。对硅谷企业来说，SB 53意味着大量合规文书义务、潜在的法律诉讼风险、以及来自州检察长的持续监管压力。

CAISI体系的精妙之处在于：联邦并没有在同一维度上与加州竞争，不是比谁的透明度要求更多，也不是比谁的罚款更重，而是直接将AI监管拉升到了一个加州无法触及的维度：国家安全。

这是一次经典的“标准垂直超越”：

● SB 53关注的是风险的处理程序：强调透明度（包括重大事件报告）、公众知情权、企业责任，但风险定义本身非常模糊。

● CAISI评测则直接针对国家安全风险本身的防控：网络战、生化武器、对关键基础设施的影响和强制缓解措施。

在美国宪法体系下，涉及国家安全的事务，联邦权力具有绝对的排他性优先权（Federal Preemption）。一旦联邦政府认定某项活动属于“国家安全”范畴并建立了相应的管理框架，各州在同一领域的法律即面临被“优先”（即实质性架空）的风险。

关键的是，SB 53的“联邦让步条款”规定，与联邦法律相冲突时不予适用，并在配套讨论中提及对“与SB 53相当或更严格的联邦标准”予以认可，承认企业的相关合规努力，避免重复提交（22753.13(h), (i)）。这意味着联邦只需做一件事：建立一个被公认为“更高标准”的评测体系。而CAISI的评测，即在保密设施中对去除护栏的原始模型进行网络攻防和CBRN测试，是一个比加州“提交透明度报告”严苛得多的标准。只不过，这种“更严苛”不是在同一个维度上的加码，而是维度本身的跃迁，即从“社会监督”跃迁到“国家安全审查”。

实际效果是：已通过CAISI评测的企业，可以合法地援引SB 53的联邦让步条款，免除加州在伦理、偏见、透明度等方面的大量合规要求，实质上跳出州级监管的管辖范围。

这一次联邦政府没有直接“禁止各州立法”，这在政治上代价太高，此前强硬的做法也受到各州的挑战。它现在做是通过建立一个更高维度的标准，让州法自动被“”兼容”掉。这是用安全的高度完成的权力收编，用标准的落差完成的管辖权转移。对于此前联邦与加州在AI立法上的激烈冲突而言，这不是“停战”，而是联邦找到了一条不需要正面冲突的解题路径。

四、思考与启示

（一）前沿模型风险具有全球公共性，安全评测应成为全球公共产品

从Mythos事件本身即可看出，前沿模型的风险不是区域性的。一个具备自主网络攻击能力的模型，无论其训练地和部署地在哪里，其潜在影响都指向全球互联网基础设施。美国CAISI体系的一个核心问题在于：它将具有全球影响的前沿AI模型视为本国私域资产，将安全评测封闭在联邦保密设施之内。将此类模型的安全作为国家机密来处理，本质上是将安全能力武器化，其后果是评测结果不为全球所知，但模型的风险却可能全球外溢。

面对这种不对等的“治理赤字”，我国应继续坚持将AI安全作为全球公共产品，对前沿AI模型的安全评测信息进行强制性国际披露。这不是要求企业公开商业机密或模型权重，而是要求评测的技术标准和基本结论，即模型是否通过安全红线测试、存在哪些不可接受的风险维度，成为全球可获取的公共知识。美国的评测结果应当向全球公开，而非仅服务于其国内政府采购和出口管制议程。

（二）发挥我国模型监管的优势，备案制度已能覆盖前沿风险增量评测

这一制度优势意味着，我国不需要复制美国“从零建设保密评测设施”的路径，而可以在现有监管框架基础上，针对前沿模型特有的CBRN、自主网络攻击、逃逸能力等风险维度，开展增量式评测能力建设，例如强化模型的内生安全能力建设，而不仅是依赖外围护栏的能力；对已通过备案的模型保持持续的能力追踪，在跨越风险阈值的情况下进行重新评估；基于已有国际标准和科学证据设计评测方法，提高评测技术的跨国可比性和学术公信力。不必另起炉灶，而是增量升级，我国模型从训练到部署始终处于有效监管之中，这一事实本身构成了与美国不同的治理叙事。当美国以“国家安全”为由将评测封闭化、武器化时，我国可以基于既有的透明备案制度和可验证的科学评测方法，提出一种更加开放、基于证据的全球安全合作方案。

参考资料

NIST/CAISI, CAISI Signs Agreements Regarding Frontier AI National Security Testing, 2026年5月5日。
Microsoft On the Issues, Natasha Crampton, Advancing AI evaluation with the Center for AI Standards and Innovation and the AI Security Institute (UK), 2026年5月5日。
NIST, U.S. AI Safety Institute Signs Agreements Regarding AI Safety Research, Testing and Evaluation With Anthropic and OpenAI, 2024年8月29日。
Nextgov/FCW, Alexandra Kelley, NIST sets up new task force on AI and national security, 2024年11月21日。
White House OSTP, NSTM-4, Adversarial Distillation of American AI Models, 2026年4月23日。
多家媒体综合报道（Bloomberg、NYT、AA）关于白宫酝酿AI安全行政令，2026年5月。
加州SB 53法案（Transparency in Frontier Artificial Intelligence Act），2025年9月签署，2026年1月生效。

Mythos 美國能力治理評測模型測試問題風險上線聯邦加州前沿

上一篇：分享一款!!微乐小程序免费黑科技(外挂),微乐自建房免费黑科技推荐都是有挂技巧

下一篇：484. 服役60年没退休？66式加榴炮射程仅17公里陆军为何爱不释手？

治理之智 | 美国如何用“安全评测”重塑AI治理秩序

相关内容

热门资讯