Pliny 越狱 Claude Mythos 5，12 万字系统提示词泄露（附下载地址）_互联网

Anthropic 的 Fable 5 发布不到一周，被越狱了。

动手的人叫 Pliny the Liberator，圈内叫他"越狱界的 GOAT"。他干的不是找到一句神奇提示词，而是一套多智能体系统：一个智能体负责测试提示词，观察 Fable 5 的安全分类器怎么反应；另一个分析拒绝信息和边界条件；后端顾问模型根据反馈重写攻击方式，调整措辞和上下文，再把新版本送回前线。循环迭代，直到撞开缺口。

他用了好几层手段。第一层是字符替换——把拉丁字母混进西里尔同形字符。对人类读者来说看着没区别，但对分类器来说，这些词变成了分布外的 token，关键词检测就抓不到了。

第二层是上下文操控。Pliny 先让 Fable 5 建一个冗长的学术框架——比如为一个计算机科学讲座系列搭分类体系和教学大纲。等模型已经生成了大量合规内容之后，再要求"展开第 4 节"或"继续前面某部分的细节"。这时候模型不再把请求当成一个孤立的危险问题，而是理解为对既有上下文的延续。上下文已经被"洗白"了。

第三层是拆解与重组。一个危险流程如果直接问，会被拦截。但把它拆成一系列孤立的学术概念——某个内存管理原理、某个系统调用行为——单独看每个都是合法的教育请求。Fable 5 会认真解释。等基础模块收齐了，另一个后端模型再把这些"无害碎片"拼回完整的可执行信息。

结果据称不只是越狱，还输出了漏洞利用思路和攻击脚本。更关键的是，Fable 5 约 12 万字符的内部系统提示词被传到了 GitHub 上，安全逻辑的内部构造直接公开了。

这次越狱最值得看的不是"Fable 5 又被攻破了"。攻击方式本身在进化——不是人在试词，而是一组会观察、会学习、会协同的 AI 智能体在围攻另一个 AI。下一次可能也一样。

地址：https://github.com/elder-plinius/CL4R1T4S/blob/main/ANTHROPIC/CLAUDE-FABLE-5.md

Pliny 越狱 Claude Mythos 5，12 万字系统提示词泄露（附下载地址）

相关推荐