
一个吓坏了自己测试人员的前沿模型
Anthropic 及其代号为“Mythos”的新旗舰模型的旅程,揭示了 AI 能力的新前沿以及前所未有的风险。该模型于 2026 年 4 月预发布,最初因对其能力的深切担忧而未能大规模发布。这些担忧并非假设,而是直接源于那些亲身体验过 Mythos 的人。
事实上,Anthropic 首席执行官 Dario Amodei 在接受彭博原创采访时透露,获得 Mythos 早期访问权的公司发出了严厉警告。根据 Amodei 的说法,这些合作伙伴表示该模型是“超级武器”,使用它“应该需要持枪许可证”。
这些警告突显了一个关键转变:先进的 AI 模型现在能够进行具有如此强大双重用途的应用,以至于即使是受信任、经过审查的合作伙伴也将其视为生存威胁。这对网络安全战略的影响是直接而深远的,要求重新评估防御态势。
Mythos 究竟能做什么
Mythos 的能力,即使在受控环境中,也是非凡的。据报道,在其评估阶段,Mythos 发现了它测试过的所有主要操作系统和网络浏览器中的缺陷。这包括数十年来未被发现的漏洞,突显了该模型无与伦比的深入、全面分析能力。
Project Glasswing 是 Anthropic 的受控早期访问计划,它与大约 50 个经过审查的组织共享了 Mythos。该小组包括 Google、Apple、Amazon、Microsoft 和 CrowdStrike 等行业巨头,主要用于防御性网络安全工作。他们的反馈为推迟 Mythos 更广泛发布的最初决定提供了依据。
担忧集中在不良行为者利用 Mythos 能力的可能性上。具体来说,担忧包括它被用来破坏关键基础设施(例如银行系统)或协助开发生物武器。Mythos 所展示的纯粹分析能力,如果得不到缓解,将构成明显而现实的危险。
为什么“护栏”本身不足够
为了应对这些深切担忧,Anthropic 发布了 Claude Fable 5,这是一个基于 Mythos 底层架构构建的公共模型,但配备了重要的护栏。这些安全措施旨在减轻早期访问期间发现的风险。具体来说,当 Fable 5 的请求超过预定义的高风险阈值时,特别是在网络安全或生物学领域,该模型会自动回退到较早、能力较弱的 Claude Opus 4.8。
尽管有这些保护措施,Fable 5 仍然展示了卓越的性能。Vals AI 基准测试将 Fable 5 评为当时功能最强大的公开可用 AI 模型。这表明,即使是 Mythos 的一个经过刻意限制的版本,也保留了显著的前沿能力。
然而,随后的事件表明了内部护栏固有的局限性。虽然必不可少,但这些控制最终是供应商针对外部风险的内部解决方案。它们未能完全解决能力、意图和监管监督之间复杂的相互作用,而这些正是前沿 AI 双重用途挑战的定义。
“关于 Mythos 的初步反馈揭示了一种能力水平,它从根本上重塑了我们对 AI 双重用途潜力的理解。内部护栏是必要的第一个步骤,但它们不能是全面安全战略的最终答案。”
供应链风险无人问津:监管拉动
也许 Mythos 传奇中最重大的发展是美国政府的突然干预。援引国家安全担忧,一项新的出口管制指令要求 Anthropic 立即撤销所有外国国民对 Claude Fable 5 和 Claude Mythos 5 的访问权限。这适用于全球范围,无论他们身在何处,甚至包括 Anthropic 自己的员工。
这项严厉措施的理由是“潜在的狭窄、非普遍的越狱”,被描述为仅有口头证据。这一监管行动说明了 AI 驱动系统的一种新的、强大的供应链风险:政府基于感知到的国家安全威胁进行干预,即使证据没有公开详细说明。
Anthropic 迅速遵守,暂停了所有客户对 Fable 5 和 Mythos 5 的访问。该公司将这种情况描述为正在积极解决的“误解”。这一事件凸显了即使是先进的内部护栏和模型提供商的仔细审查也无法使用户免受外部监管压力的影响。
这对 AI 驱动的安全平台意味着什么
Mythos 事件从根本上改变了依赖 AI 驱动平台的安全领导者的格局。Fable 5 和 Mythos 5 访问权限的突然暂停表明了单一供应商 AI 依赖的脆弱性。一个完全建立在单一前沿模型提供商之上的平台,本质上容易受到突然中断、监管指令,甚至是提供商自身内部安全决策的影响。
这种波动性超出了单纯的正常运行时间。“潜在的狭窄、非普遍的越狱”被美国政府引用,即使未公开证实,也强调了 AI 模型面临的持续对抗性攻击威胁。一个与单一模型绑定的平台,如果该模型被成功利用或被认为不安全,无论其底层能力如何,都有可能完全受到损害。
对于 CISO 和安全工程师来说,这需要战略性地转向 AI 集成中的弹性和冗余。重点必须从简单地利用最有能力的模型,转向构建一个能够适应模型可用性、能力和安全态势快速变化的基础设施。模型无关的方法不仅是一种优势,而且是维持运营连续性和安全效率的关键必要条件。
模型无关的安全平台如何改变局面
围绕 Mythos 的事件强调了模型无关安全平台的战略重要性。这样的平台将组织从依赖单一 AI 提供商所固有的单点故障中隔离开来。它通过在统一的安全引擎 API 后面编排来自不同提供商(如 Anthropic、OpenAI、Google 和开源权重)的多个前沿 AI 模型来实现这一点。
这种分层方法允许动态路由特定的安全任务——例如进攻性侦察、概念验证草拟、SOC 分类或威胁情报摘要。路由决策基于实时评估,以确定哪个模型目前为该特定任务提供了安全性和能力之间的最佳平衡。这确保了组织始终利用最佳可用 AI 资源,而不会被锁定在单一供应商的生态系统中。
至关重要的是,Open-Agent 层提供了自动回退功能。如果主要提供商被暂停、发生中断、被越狱,或者被更新的模型超越,系统会无缝切换到替代方案。这种设计确保了持续运行和强大的防御,消除了因外部因素而失去关键 AI 能力的风险。利用 Global Rail Cyber Security 的 Open-Agent 层等解决方案的组织因此免受供应商锁定和依赖性引发的中断的影响。
双重用途时代的防御清单
为前沿模型双重用途风险的不断演变做好准备需要采取积极措施。安全领导者应考虑以下行动:
- 使 AI 模型依赖多样化: 避免在关键安全功能上依赖单一 AI 提供商。
- 实施模型无关架构: 优先选择抽象底层 AI 模型、允许灵活切换的平台。
- 建立动态路由策略: 根据能力、安全性和可用性定义将任务路由到不同模型的标准。
- 规划 AI 模型过时/暂停: 制定应急计划,以应对突然失去对特定前沿模型的访问。
- 独立验证模型护栏: 不要仅仅依赖供应商提供的安全机制;进行内部对抗性测试。
- 监控监管环境: 随时了解出口管制、国家安全指令以及其他影响 AI 访问的政府干预措施。
- 评估每个模型的数据泄露风险: 了解不同模型如何处理敏感输入数据和潜在暴露。
接下来关注什么
Anthropic Mythos 事件是 AI 安全领域未来挑战的预兆。前所未有的 AI 能力、这些技术固有的双重用途性质以及政府监管日益增强的果断性之间的相互作用将继续塑造该行业。安全领导者必须密切关注模型安全、对抗性攻击技术和管理前沿 AI 的不断演变法律框架。简单、单一供应商 AI 采用的时代已经结束;通过多样化和模型无关性实现弹性是新的当务之急。


