2026年AI大模型IQ和EQ排行榜：GPT-5.5最聪明，Opus 4.7最会聊天_AI资讯

每次新模型发布，通稿里少不了"史上最强""全面超越"。看多了就麻木了。到底强了多少？值不值得多付那几倍的钱？

aiiq.org给了一个回答——给每个模型一个 IQ 分数和一个 EQ 分数，放在同一张图上比。IQ 来自 12 个公开基准测试，EQ 来自人类投票和 AI 评分。再加上成本维度，就是"能力、情商、花钱"三个轴的取舍。

2026年AI大模型IQ和EQ排行榜：GPT-5.5最聪明，Opus 4.7最会聊天

先看排名

IQ 由四个维度组成：抽象推理、数学、编程、学术。要拿到综合分数，至少得覆盖其中两个维度。以下是头部选手：

2026年AI大模型IQ和EQ排行榜：GPT-5.5最聪明，Opus 4.7最会聊天

GPT-5.5 综合第一，但优势不算碾压。Opus 4.7 和 Gemini 3.1 Pro 跟得很紧，三者 IQ 差距在 5 分以内，不同测试的排名会有变化。

Kimi K2.6 排第四，作为开源模型这个成绩很能打。月之暗面在编程和数学两个维度上追得很紧。

Grok 4.3 的强项是速度。196 TPS 远超 Opus 4.7 的 46 TPS。对延迟敏感的场景，这个排名需要重新考虑。

EQ 由两部分组成：EQ-Bench 3 的 Elo 分数和 Chatbot Arena Elo。两者各占 50%。

2026年AI大模型IQ和EQ排行榜：GPT-5.5最聪明，Opus 4.7最会聊天

排名	模型	EQ-Bench Elo	Arena Elo
1	Opus 4.7	2035	1503
2	Opus 4.6	1927	1504
3	Sonnet 4.6	1891	1457
4	GPT-5.4	1637	1479
5	GLM 5	1650	1455
6	DeepSeek V4 Pro	1648	1462
7	GPT-5.5	1627	1488

Anthropic 三款模型包揽前三。扣了 200 点惩罚之后 Opus 4.7 仍然甩了第二名一百多点。GPT-5.5 的 EQ 排名没有 IQ 那么高——聊天能力和推理能力确实不是同一回事。

Grok 4.20 的 EQ-Bench Elo 只有 852，排在倒数。xAI 的模型在情感理解上确实拖后腿。

四个维度，每个维度对应几个基准测试：

每个基准的原始分数通过一条校准曲线映射到对应的 IQ 值，四个维度取平均就是综合 IQ。公式很简单：

IQ = (抽象IQ + 数学IQ + 编程IQ + 学术IQ) / 4

缺失的维度用保守值填充后纳入平均。这意味着覆盖度低的模型不会占便宜，综合分数反而会被拉低。

单纯比 IQ 高低意义不大。GPT-5.5 当然比 GPT-5-nano 聪明，但如果你只需要做文本分类，多付几十倍的钱就是浪费。

AI IQ 的"有效成本"概念比较实用：token 价格乘以 token 使用倍数。有些模型看起来便宜，但完成同样任务需要更多 token，实际算下来反而更贵。

AI大模型 IQ成本：花多少钱买多少脑子

Opus 4.7 虽然能力全面，但 $5335 的有效成本让大多数场景望而却步。预算有限的话，DeepSeek V3.2 是 $100 以内的最佳选择——IQ 不算顶级，但绝对够用。

网站上那个 IQ vs 有效成本的散点图是最有用的视图。右上角的模型是严格意义上的更优选择，同等成本下更聪明，或者同等能力下更省钱。不用看参数，不用读论文。

这个网站有几个选择让我觉得靠谱。

保守填充。缺失数据不直接忽略，而是用保守值填补后纳入平均。这个设计防止了"只挑简单测试跑"的策略。

前序对比。"Frontier IQ Over Time" 按发布日期排列各家旗舰模型，能直接看出新一代是不是真的比上一代有进步。发布会上说的"大幅提升"，在这条线上有时只是一小步。

等值曲线。IQ 和成本的权衡可以用滑块调整权重比例。1:1 意味着 1 点 IQ 提升等价于成本减半，调到 1:5 就是成本更重要。不同场景的偏好不同，比单纯排名有用。

IQ 这个概念本来就是从人类智力测试借过来的，用在 AI 上是否恰当，学术界也没有共识。不同基准之间的权重完全均等，但实际上有些测试更容易被数据污染。

EQ 的测量更模糊。情感理解能力和对话中的"讨人喜欢"到底是一回事吗？EQ-Bench 3 的裁判是 Claude 自己，虽然有修正，但"自己给自己打分"的结构本身就不太理想。

不过对于日常选模型来说，够用就行。你不需要一把完美的尺子，只需要一把比"厂商通稿"更靠谱的尺子。