Claude Fable 5 登顶 Artificial Analysis 智能指数：全面超越 GPT-5.5 和 Gemini_AI资讯

独立 AI 分析机构 Artificial Analysis 今日发布了对 Claude Fable 5 的预发布评估报告。结果显示，Claude Fable 5 以 64.9 的综合得分登顶 Artificial Analysis Intelligence Index v4.0，领先第二名 Claude Opus 4.8（61.4）3.5 分，领先最接近的非 Anthropic 模型 GPT-5.5（xhigh）5 分有余。

Artificial Analysis Intelligence Index 排行榜 - Claude Fable 5 以 64.9 分位居第一 — 图1：Artificial Analysis Intelligence Index v4.0 完整排行榜（共 10 项基准测试）

综合得分：Anthropic 包揽前两名

Artificial Analysis Intelligence Index v4.0 整合了 10 项独立评估：

GDPval-AA（真实工作任务）
Tau²-Bench Telecom（客服工具使用）
Terminal-Bench Hard（Agent 编程）
SciCode（科学编程）
AA-LCR（长上下文推理）
AA-Omniscience（知识与幻觉）
IFBench（指令遵循）
Humanity's Last Exam（人类最后考试）
GPQA Diamond（科学推理）
CritPt（批判性推理）

Claude Fable 5 在 10 项基准中的 5 项取得最高分，在 10 项中的 8 项排名前 3。Anthropic 的模型目前占据了前两名位置（Fable 5 和 Opus 4.8 max）。

Humanity's Last Exam：53% 得分，但 9% 触发安全护栏

在 Humanity's Last Exam（HLE）这一极具挑战性的基准测试中，Claude Fable 5 取得 53% 的得分，领先第二名 Claude Opus 4.8（max）7 个百分点以上。

但值得注意的是，Fable 5 在 9% 的 HLE 任务上触发了安全护栏，回退至 Claude Opus 4.8。加上回退成本，运行完整的 HLE 评估花费约 $2,174，是 Artificial Analysis 评估过的所有模型中最高的。

指标	Claude Fable 5	Claude Opus 4.8 (max)	GPT-5.5 (xhigh)
HLE 得分	53.3%	45.7%	44.3%
评估总成本	$2,174	$1,759	$820
安全护栏触发率	9%	-	-

AA-Omniscience 知识可靠性评估 — 图3：AA-Omniscience 知识可靠性、准确率和幻觉率评估

AA-Omniscience：知识与幻觉评估的突破

在 Artificial Analysis 自研的知识与幻觉基准测试 AA-Omniscience 上，Claude Fable 5 取得 40 分，领先之前的第一名 Gemini 3.1 Pro Preview（33 分）7 分。

这一得分主要由更高的准确率驱动，而非更低的幻觉率。Fable 5 在 AA-Omniscience Accuracy（准确率）上达到 81%，远超所有其他模型。

Artificial Analysis 指出，在开源模型中，AA-Omniscience 准确率与模型规模之间存在强相关性，这暗示 Fable 5 的参数量可能大于此前公开的 Anthropic 模型。

Agent 能力：三大 Agent 基准全面领先

Claude Fable 5 在 Artificial Analysis Index 中的三项 Agent 评估中均处于前沿位置：

GDPval-AA（真实工作任务）：Elo 分数 1932，显著高于前一名 Claude Opus 4.8
Terminal-Bench Hard（Agent 编程）
Tau²-bench Telecom（客服工具使用）

Artificial Analysis 认为，GDPval-AA Elo 的大幅跃升进一步巩固了 Anthropic 在 Agent 能力方面的领先地位。

关键模型参数

参数	详情
上下文窗口	100 万 token（与 Claude Opus 4.8 相同）
输入价格	$10 / 百万 token（是 Opus 4.8 的 2 倍）
输出价格	$50 / 百万 token（是 Opus 4.8 的 2 倍）
缓存写入/读取	$12.50 / $1 / 百万 token
安全护栏	网络安全、生物、化学、蒸馏相关查询触发回退至 Opus 4.8
平均回退率	低于 5%（官方数据），Artificial Analysis 实测约 8%

可用性安排

6 月 9 日至 22 日：Pro、Max、Team 和企业版计划包含 Fable 5，无额外费用（消耗 2 倍 Opus 额度）
6 月 23 日起：需要使用额度（credits），Anthropic 计划在容量允许时恢复为标准计划的一部分

编辑点评：独立第三方的视角

与 Anthropic 官方公告不同，Artificial Analysis 作为独立第三方评估机构，提供了几个值得关注的视角：

实测回退率高于官方：Anthropic 声称平均回退率低于 5%，但 Artificial Analysis 在 Intelligence Index 评估中记录到约 8% 的回退率，主要集中在科学类问题（GPQA、AA-Omniscience、HLE）
评估成本惊人：运行 HLE 评估 Fable 5 花费 $2,174，是所有模型中最高的，这反映了 Fable 5 在复杂任务上的高 token 消耗
模型规模暗示：基于准确率与模型规模的相关性，推测 Fable 5 可能比此前公开的 Anthropic 模型更大

对于企业用户来说，Fable 5 的能力跃升是实实在在的——但两倍于 Opus 4.8 的价格和约 8% 的安全回退率，意味着需要在成本和收益之间做权衡。

Claude Fable 5 登顶 Artificial Analysis 智能指数：全面超越 GPT-5.5 和 Gemini