Anthropic 的 Fable 5 发布不到一周,被越狱了。
动手的人叫 Pliny the Liberator,圈内叫他"越狱界的 GOAT"。他干的不是找到一句神奇提示词,而是一套多智能体系统:一个智能体负责测试提示词,观察 Fable 5 的安全分类器怎么反应;另一个分析拒绝信息和边界条件;后端顾问模型根据反馈重写攻击方式,调整措辞和上下文,再把新版本送回前线。循环迭代,直到撞开缺口。
他用了好几层手段。第一层是字符替换——把拉丁字母混进西里尔同形字符。对人类读者来说看着没区别,但对分类器来说,这些词变成了分布外的 token,关键词检测就抓不到了。
第二层是上下文操控。Pliny 先让 Fable 5 建一个冗长的学术框架——比如为一个计算机科学讲座系列搭分类体系和教学大纲。等模型已经生成了大量合规内容之后,再要求"展开第 4 节"或"继续前面某部分的细节"。这时候模型不再把请求当成一个孤立的危险问题,而是理解为对既有上下文的延续。上下文已经被"洗白"了。
第三层是拆解与重组。一个危险流程如果直接问,会被拦截。但把它拆成一系列孤立的学术概念——某个内存管理原理、某个系统调用行为——单独看每个都是合法的教育请求。Fable 5 会认真解释。等基础模块收齐了,另一个后端模型再把这些"无害碎片"拼回完整的可执行信息。
结果据称不只是越狱,还输出了漏洞利用思路和攻击脚本。更关键的是,Fable 5 约 12 万字符的内部系统提示词被传到了 GitHub 上,安全逻辑的内部构造直接公开了。
这次越狱最值得看的不是"Fable 5 又被攻破了"。攻击方式本身在进化——不是人在试词,而是一组会观察、会学习、会协同的 AI 智能体在围攻另一个 AI。下一次可能也一样。
地址:https://github.com/elder-plinius/CL4R1T4S/blob/main/ANTHROPIC/CLAUDE-FABLE-5.md