Claude Fable 5 登顶 Artificial Analysis 智能指数:全面超越 GPT-5.5 和 Gemini

独立 AI 分析机构 Artificial Analysis 今日发布了对 Claude Fable 5 的预发布评估报告。结果显示,Claude Fable 5 以 64.9 的综合得分登顶 Artificial Analysis Intelligence Index v4.0,领先第二名 Claude Opus 4.8(61.4)3.5 分,领先最接近的非 Anthropic 模型 GPT-5.5(xhigh)5 分有余。

Artificial Analysis Intelligence Index 排行榜 - Claude Fable 5 以 64.9 分位居第一
图1:Artificial Analysis Intelligence Index v4.0 完整排行榜(共 10 项基准测试)

综合得分:Anthropic 包揽前两名

Artificial Analysis Intelligence Index v4.0 整合了 10 项独立评估:

  • GDPval-AA(真实工作任务)
  • Tau²-Bench Telecom(客服工具使用)
  • Terminal-Bench Hard(Agent 编程)
  • SciCode(科学编程)
  • AA-LCR(长上下文推理)
  • AA-Omniscience(知识与幻觉)
  • IFBench(指令遵循)
  • Humanity's Last Exam(人类最后考试)
  • GPQA Diamond(科学推理)
  • CritPt(批判性推理)

Claude Fable 5 在 10 项基准中的 5 项取得最高分,在 10 项中的 8 项排名前 3。Anthropic 的模型目前占据了前两名位置(Fable 5 和 Opus 4.8 max)。

Humanity
图2:Humanity's Last Exam 基准测试结果与成本分析

Humanity's Last Exam:53% 得分,但 9% 触发安全护栏

在 Humanity's Last Exam(HLE)这一极具挑战性的基准测试中,Claude Fable 5 取得 53% 的得分,领先第二名 Claude Opus 4.8(max)7 个百分点以上。

但值得注意的是,Fable 5 在 9% 的 HLE 任务上触发了安全护栏,回退至 Claude Opus 4.8。加上回退成本,运行完整的 HLE 评估花费约 $2,174,是 Artificial Analysis 评估过的所有模型中最高的。

指标 Claude Fable 5 Claude Opus 4.8 (max) GPT-5.5 (xhigh)
HLE 得分 53.3% 45.7% 44.3%
评估总成本 $2,174 $1,759 $820
安全护栏触发率 9% - -
AA-Omniscience 知识可靠性评估
图3:AA-Omniscience 知识可靠性、准确率和幻觉率评估

AA-Omniscience:知识与幻觉评估的突破

在 Artificial Analysis 自研的知识与幻觉基准测试 AA-Omniscience 上,Claude Fable 5 取得 40 分,领先之前的第一名 Gemini 3.1 Pro Preview(33 分)7 分。

这一得分主要由更高的准确率驱动,而非更低的幻觉率。Fable 5 在 AA-Omniscience Accuracy(准确率)上达到 81%,远超所有其他模型。

Artificial Analysis 指出,在开源模型中,AA-Omniscience 准确率与模型规模之间存在强相关性,这暗示 Fable 5 的参数量可能大于此前公开的 Anthropic 模型

10 项智能评估完整分解
图4:10 项智能评估的完整分解结果

Agent 能力:三大 Agent 基准全面领先

Claude Fable 5 在 Artificial Analysis Index 中的三项 Agent 评估中均处于前沿位置:

  • GDPval-AA(真实工作任务):Elo 分数 1932,显著高于前一名 Claude Opus 4.8
  • Terminal-Bench Hard(Agent 编程)
  • Tau²-bench Telecom(客服工具使用)

Artificial Analysis 认为,GDPval-AA Elo 的大幅跃升进一步巩固了 Anthropic 在 Agent 能力方面的领先地位。

关键模型参数

参数 详情
上下文窗口 100 万 token(与 Claude Opus 4.8 相同)
输入价格 $10 / 百万 token(是 Opus 4.8 的 2 倍)
输出价格 $50 / 百万 token(是 Opus 4.8 的 2 倍)
缓存写入/读取 $12.50 / $1 / 百万 token
安全护栏 网络安全、生物、化学、蒸馏相关查询触发回退至 Opus 4.8
平均回退率 低于 5%(官方数据),Artificial Analysis 实测约 8%

可用性安排

  • 6 月 9 日至 22 日:Pro、Max、Team 和企业版计划包含 Fable 5,无额外费用(消耗 2 倍 Opus 额度)
  • 6 月 23 日起:需要使用额度(credits),Anthropic 计划在容量允许时恢复为标准计划的一部分

编辑点评:独立第三方的视角

与 Anthropic 官方公告不同,Artificial Analysis 作为独立第三方评估机构,提供了几个值得关注的视角:

  1. 实测回退率高于官方:Anthropic 声称平均回退率低于 5%,但 Artificial Analysis 在 Intelligence Index 评估中记录到约 8% 的回退率,主要集中在科学类问题(GPQA、AA-Omniscience、HLE)
  2. 评估成本惊人:运行 HLE 评估 Fable 5 花费 $2,174,是所有模型中最高的,这反映了 Fable 5 在复杂任务上的高 token 消耗
  3. 模型规模暗示:基于准确率与模型规模的相关性,推测 Fable 5 可能比此前公开的 Anthropic 模型更大

对于企业用户来说,Fable 5 的能力跃升是实实在在的——但两倍于 Opus 4.8 的价格和约 8% 的安全回退率,意味着需要在成本和收益之间做权衡。