独立 AI 分析机构 Artificial Analysis 今日发布了对 Claude Fable 5 的预发布评估报告。结果显示,Claude Fable 5 以 64.9 的综合得分登顶 Artificial Analysis Intelligence Index v4.0,领先第二名 Claude Opus 4.8(61.4)3.5 分,领先最接近的非 Anthropic 模型 GPT-5.5(xhigh)5 分有余。
综合得分:Anthropic 包揽前两名
Artificial Analysis Intelligence Index v4.0 整合了 10 项独立评估:
- GDPval-AA(真实工作任务)
- Tau²-Bench Telecom(客服工具使用)
- Terminal-Bench Hard(Agent 编程)
- SciCode(科学编程)
- AA-LCR(长上下文推理)
- AA-Omniscience(知识与幻觉)
- IFBench(指令遵循)
- Humanity's Last Exam(人类最后考试)
- GPQA Diamond(科学推理)
- CritPt(批判性推理)
Claude Fable 5 在 10 项基准中的 5 项取得最高分,在 10 项中的 8 项排名前 3。Anthropic 的模型目前占据了前两名位置(Fable 5 和 Opus 4.8 max)。
Humanity's Last Exam:53% 得分,但 9% 触发安全护栏
在 Humanity's Last Exam(HLE)这一极具挑战性的基准测试中,Claude Fable 5 取得 53% 的得分,领先第二名 Claude Opus 4.8(max)7 个百分点以上。
但值得注意的是,Fable 5 在 9% 的 HLE 任务上触发了安全护栏,回退至 Claude Opus 4.8。加上回退成本,运行完整的 HLE 评估花费约 $2,174,是 Artificial Analysis 评估过的所有模型中最高的。
| 指标 | Claude Fable 5 | Claude Opus 4.8 (max) | GPT-5.5 (xhigh) |
|---|---|---|---|
| HLE 得分 | 53.3% | 45.7% | 44.3% |
| 评估总成本 | $2,174 | $1,759 | $820 |
| 安全护栏触发率 | 9% | - | - |
AA-Omniscience:知识与幻觉评估的突破
在 Artificial Analysis 自研的知识与幻觉基准测试 AA-Omniscience 上,Claude Fable 5 取得 40 分,领先之前的第一名 Gemini 3.1 Pro Preview(33 分)7 分。
这一得分主要由更高的准确率驱动,而非更低的幻觉率。Fable 5 在 AA-Omniscience Accuracy(准确率)上达到 81%,远超所有其他模型。
Artificial Analysis 指出,在开源模型中,AA-Omniscience 准确率与模型规模之间存在强相关性,这暗示 Fable 5 的参数量可能大于此前公开的 Anthropic 模型。
Agent 能力:三大 Agent 基准全面领先
Claude Fable 5 在 Artificial Analysis Index 中的三项 Agent 评估中均处于前沿位置:
- GDPval-AA(真实工作任务):Elo 分数 1932,显著高于前一名 Claude Opus 4.8
- Terminal-Bench Hard(Agent 编程)
- Tau²-bench Telecom(客服工具使用)
Artificial Analysis 认为,GDPval-AA Elo 的大幅跃升进一步巩固了 Anthropic 在 Agent 能力方面的领先地位。
关键模型参数
| 参数 | 详情 |
|---|---|
| 上下文窗口 | 100 万 token(与 Claude Opus 4.8 相同) |
| 输入价格 | $10 / 百万 token(是 Opus 4.8 的 2 倍) |
| 输出价格 | $50 / 百万 token(是 Opus 4.8 的 2 倍) |
| 缓存写入/读取 | $12.50 / $1 / 百万 token |
| 安全护栏 | 网络安全、生物、化学、蒸馏相关查询触发回退至 Opus 4.8 |
| 平均回退率 | 低于 5%(官方数据),Artificial Analysis 实测约 8% |
可用性安排
- 6 月 9 日至 22 日:Pro、Max、Team 和企业版计划包含 Fable 5,无额外费用(消耗 2 倍 Opus 额度)
- 6 月 23 日起:需要使用额度(credits),Anthropic 计划在容量允许时恢复为标准计划的一部分
编辑点评:独立第三方的视角
与 Anthropic 官方公告不同,Artificial Analysis 作为独立第三方评估机构,提供了几个值得关注的视角:
- 实测回退率高于官方:Anthropic 声称平均回退率低于 5%,但 Artificial Analysis 在 Intelligence Index 评估中记录到约 8% 的回退率,主要集中在科学类问题(GPQA、AA-Omniscience、HLE)
- 评估成本惊人:运行 HLE 评估 Fable 5 花费 $2,174,是所有模型中最高的,这反映了 Fable 5 在复杂任务上的高 token 消耗
- 模型规模暗示:基于准确率与模型规模的相关性,推测 Fable 5 可能比此前公开的 Anthropic 模型更大
对于企业用户来说,Fable 5 的能力跃升是实实在在的——但两倍于 Opus 4.8 的价格和约 8% 的安全回退率,意味着需要在成本和收益之间做权衡。