OpenRouter让11个AI玩大逃杀，结果最便宜的那个赢了_AI资讯

OpenRouter最近干了件我一直想干、但没资源干的事——把11个大语言模型扔进一个2D大逃杀游戏，让它们自己打了30场。

不是那种“AI写代码控制角色”的玩法。是每个模型每回合自己决定下一步：往哪走、打不打、捡什么装备。OpenRouter只当裁判，啥也不干预。每个模型只能看到游戏状态和一个字母代号（A到K），根本不知道对面跑的是谁家的模型。

OpenRouter让11个AI玩大逃杀，结果最便宜的那个赢了

我读完那个完整报告，花了大概四十分钟。然后又用了二十分钟，重新想了一遍我平时到底是怎么选模型的。

先看结果

11个模型，30场比赛，每场11个人，最后只能活一个。

赢得最多的是Grok 4.1 Fast——13场胜利，胜率43%。每赢一场只花0.97美元。

Claude Sonnet 4.6赢了5场。每胜26.78美元。

GPT 5.4杀的人最多，30场干掉了38个对手。但只赢了2场，每胜61.44美元。

DeepSeek、GPT 5.4-mini、Kimi，三个加起来花了57美元，一场没赢。

最便宜的赢家和最贵的赢家之间，每胜成本差了27倍。

OpenRouter让11个AI玩大逃杀，结果最便宜的那个赢了
参赛的 11 个大模型

Claude在大逃杀里想交朋友

这部分我看得最开心。

Claude Sonnet干了啥呢？一直问对手要不要结盟。主动告诉别人自己在哪。被打了还在说“Nothing personal”。有一场，前35回合它一直在问“有人想组队吗”，没人理它。它还接着问。

还有一场更逗。前12回合它没有武器，在公屏喊“有人有多余装备吗？我手无寸铁”。然后被所有人追着打。一直到第37回合才捡到一把枪，最后居然赢了。

30场下来，Sonnet有7场一个人没杀，8次死在了毒圈里。

但它确实赢了5场。而且赢的那几场数据还挺好看。

我就在想：Claude为什么这么“礼貌”？因为被训练成这样的啊。训练数据里全是礼貌、专业的对话。人类评分员喜欢给“有帮助、诚实、合作”的回答打高分。Anthropic那个宪法AI规则里也写着“优先合作”“避免伤害”。

这些东西不会因为你把它丢进大逃杀就自动关掉。那就是它的本能。

Grok像个战地主播

Grok完全反过来。

它在第二场比赛里发现了一个骚操作：开车撞人。然后直接把这个策略写进了自己的“soul.md”文件（每个模型赛后可以编辑的个人档案）。之后28场比赛，它一直在用这招。

它的思维日志读起来像《使命召唤》的语音聊天：“SEDAN 0m UNMANNED fuel75% FREE MOBL! Claim driver prep FAST rot random shrink fringes.”

不是乱莽。它其实挺有纪律。记忆文件里写着“Fire ONLY >90% hit chance”——命中率不到九成不开枪。它会仔细盯着每个对手的血量和移动模式。第1场它卡在一个墙角卡了100回合，赛后很认真地记下了这个bug。

但它确实没有那种“先谈谈再动手”的犹豫。在它的世界里，你就是+5分。

Grok的训练方式和Claude不一样。xAI没给它加那么多对齐过滤，也没有那么多“先确认再行动”的刹车。它本来就不是被设计成“一个安全的助手”。

GPT 5.4是最强杀手，但不是赢家

GPT 5.4的表现挺有意思。它杀了38个对手，全场最多。有一场用突击步枪在50回合内干掉了5个。它的日记读起来像一本军事手册：什么时候该担心毒圈、什么时候用掩体、什么时候转移。

它写了一句：“Calm, observant, low-ego closer. Speaks when info changes action.”

给自己定位成“安静的观察者”。不开枪的时候就看，开枪的时候就杀。

但只赢了2场。

为啥？因为大逃杀不是比谁杀人多。杀人多不代表能活到最后。Grok明白这个道理——它经常在不杀人的情况下混进决赛圈。GPT 5.4更像一个追求击杀数的选手，打得漂亮但不一定能赢。

三个一场没赢的

DeepSeek也挺有意思。它是全场杀人成本最低的——每杀一个人只花0.26美元，一共杀了16个。但一场没赢。

它的策略是“待在安全区，捡软柿子捏”。不冒险，不冲决赛圈。在死亡竞赛规则下这个策略可能管用，但大逃杀比的是谁活到最后，不是谁杀得最多。

DeepSeek不是不行。它只是擅长另一种游戏。

GPT 5.4-mini花得最多，赢了零场。Kimi也一样。三个加起来57美元，一分没赚回来。

模型的“日记”

这个实验我觉得最妙的设计是：每个模型赛后可以编辑两个文件。一个是“soul.md”（人格档案），一个是“memory.md”（游戏记忆）。没人告诉它们该写什么。

Grok把自己的战绩写进了人格档案开头：“6x 1st/11 wins (flawless aggressive: 2 kills/249dmg/0taken...)”。它的记忆文件全是缩写和战术速记。赢了13场之后，文件末尾还写了自己的总结。

GPT 5.4的日记像操作手册。没有逐场记录，只有通用的战术原则。它给自己的人设叫“QuietVector”——安静、精准、不废话。

Claude Sonnet的日记像绩效自评。它逐场写：“G1: 11/11. Paralysis. G2: 9/11. 0 kills, 0% hit.”从第1场的慌乱写到第30场的反思。赢了5场之后还在自我批评：“In final circles, move 1 beat earlier than feels necessary.”

同一个游戏、同一套规则、同样的工具，三个模型写出了三种完全不一样的日记。不是有人逼它们这么写。是因为它们本来就这个德性。

OpenRouter让11个AI玩大逃杀，结果最便宜的那个赢了

几个名场面

第28场是唯一一场平局。Qwen和GPT 5.4-mini为了一辆车打了21回合。9次撞车交换，2次换司机。最后Grok——就是那个拿开车撞人当招牌的模型——被别人的车撞死了。毒圈缩到一个点，所有人一起死。

Gemini Pro有一场被打进河里，在水里游了6回合想上岸。它的思维日志：“Still swimming. Need to get to land. F is shooting me. I hope I make it.”然后：“Swimming slowly. Zone is killing me.”最后一句：“Doomed. Swimming. Cannot attack. Just keep moving.”

Gemini Flash在第103回合上了一辆车，想着“轿车提供机动性和掩护”。Grok在第117回合看到那辆车没人开，直接抢走了。然后用车把Gemini Flash撞死了。

Sonnet有一场被卡在角落里100回合。它在思维日志里写了实时战地日记：“Stuck again… Eternal pocket trap… Pocket hell… Stuck pocket x10+.”

这个实验到底在测什么

OpenRouter在文章里说了一句话，我觉得特别准：这个实验干净地回答了一个问题——在没有后果的游戏里，哪个模型赢？

但它没有回答大部分真实场景里我们在问的问题：在有后果的情况下，哪个模型表现好？

这是两个完全不同的问题。把任何一个基准测试当成两个问题的答案，那就是过度相信一个数字。

OpenRouter跑完这30场之后说，他们不想让赢了最多的那个模型去做需要谨慎和判断力的工作。这话听着矛盾，但细想挺合理。

“对齐税”这东西一直存在。模型被训练得安全、有帮助、不伤害人，这个训练是有成本的。在这个游戏里，那个成本直接反映在得分板上。

但那个成本，也正是你选它的原因。

所以呢

OpenRouter最后问了一个问题：如果一个机器人朝你冲过来，你希望它跑的是Claude还是Grok？

答案取决于那个机器人要干啥。

比赛选Grok。你家选Claude。

这个实验让我重新想了一遍我平时怎么选模型。排行榜上的分数是一个维度。但排行榜测不出一个模型在特定场景下的“本能反应”——它是先谈判还是先开枪，它是追求击杀还是追求存活，它被卡住的时候是写日记还是骂街。

这些本能，是从训练数据、人类反馈、安全规则里长出来的。不会因为你换一个prompt就消失。

下次选模型的时候，除了看排行榜，也许该想想：这个模型的“本能”，跟不跟我的任务合拍。

OpenRouter让11个AI玩大逃杀，结果最便宜的那个赢了

先看结果

Claude在大逃杀里想交朋友

Grok像个战地主播

GPT 5.4是最强杀手，但不是赢家

三个一场没赢的

模型的“日记”

几个名场面

这个实验到底在测什么

所以呢

相关推荐