Anthropic Fable 5 全球解禁：两周政府禁令后恢复，新安全分类器拦截99%越狱攻击

一句话看懂

Anthropic 的 Fable 5 因越狱漏洞被美国政府禁运两周，现已恢复全球发布，新安全分类器拦截99%以上攻击。

详细发生了什么

2026年7月，Anthropic 的旗舰模型 Fable 5 被美国政府禁运两周，原因是亚马逊研究人员发现了一种越狱（jailbreak）技术，可以绕过模型的安全护栏。Anthropic 回应称，即使是更小的模型如 Claude Haiku 4.5 也能实现同样的攻击，因此问题并非 Fable 5 独有。

Anthropic 随后部署了一个新的安全分类器，专门检测并阻止该越狱技术。据公司称，新分类器在超过99%的情况下成功拦截攻击，但代价是误报率上升——一些无害请求也被错误标记。

禁令解除后，Fable 5 已重新向全球用户开放。Anthropic 表示将继续与政府合作，确保模型安全。

中文圈视角

对中文用户来说，Fable 5 的禁令和恢复影响有限，因为该模型在国内无法直接访问。但事件本身有几点值得关注：

安全治理的示范效应：美国政府直接干预模型发布，表明 AI 安全已上升为国家监管议题。国内类似监管（如《生成式人工智能服务管理暂行办法》）可能借鉴此类“禁令+修复”模式。
国产模型的平替机会：Fable 5 的越狱漏洞暴露了大型模型的共性安全问题。国内模型如 DeepSeek、Kimi、智谱 GLM 等同样面临越狱风险，但公开讨论较少。此次事件提醒中文开发者重视安全测试。
误报率上升的代价：安全分类器误报无害请求，可能影响用户体验。中文用户在使用国产模型时，也可能遇到类似“过度审查”问题，需平衡安全与可用性。
技术细节的公开：Anthropic 承认小模型也能实现越狱，说明安全漏洞与模型规模无关。中文社区应关注此类技术细节，而非仅聚焦大模型参数竞赛。

几条值得记住的细节

禁令持续两周，由美国政府直接下达。
越狱技术由亚马逊研究人员发现，但 Anthropic 称 Claude Haiku 4.5 也能实现。
新安全分类器拦截率超过99%，但误报率上升。
Fable 5 现已全球恢复，包括之前被禁的地区。
Anthropic 未公开越狱技术的具体细节，以避免被滥用。

一句话总结

Fable 5 的越狱风波提醒我们：AI 安全是动态博弈，监管介入和快速修复将成为常态。