国产Coding大模型三强谁更强:MiniMax M3 vs Kimi K2.7-Code vs GLM-5.2

6 月这半个月,三家排队发:MiniMax M3(6/1)、Kimi K2.7-Code(6/12)、GLM-5.2(6/13)。方向出奇一致——长上下文、写代码、干 Agent、开放权重。

那到底谁更强?这篇文章不绕弯子,直接给判断。


0. 先把结论摆桌面上

没有单一赢家,但有分场景的明确赢家。一句话总结:

你的核心诉求 选谁 理由
配置最满、什么都要 MiniMax M3 1M 长上下文 + 原生多模态 + 开放权重,全球唯一三件套一次给齐
省钱、跑量、追求 token 效率 Kimi K2.7-Code 思考 token 少 30%,单价是 Claude Opus 的几分之一
代码品质、赌潜力、不差钱 GLM-5.2 自研 ZCode 闭环 + MIT 开源在即,独立评测人评价"能伪装成 Opus"
当下要硬分数支撑 MiniMax M3 三家里唯一在公开权威榜 SWE-Bench Pro 上有交代
要立即可用、权重已落地 MiniMax M3 / Kimi 两家权重都在 HuggingFace 上,GLM 的"下周"还没到

下面逐家拆,然后横着比,最后给场景化建议。


一、MiniMax M3:配置最满,当下最"能打"

发布:6 月 1 日 | 4560 亿参数 MoE | 1M 上下文 | 开放权重(已落地)

M3 用三个字概括:长、强、全

  • ——1M token 上下文,关键是"用得起"。自研稀疏注意力 MSA,100 万上下文下每 token 计算量约为上代的 1/20,prefill 提速 9 倍。长上下文不再是"能塞进去",而是"塞进去还跑得动"。
  • ——SWE-Bench Pro 59.0%,Terminal-Bench 2.1 66.0%。官方称超过 GPT-5.5 和 Gemini 3.1 Pro。这是三家里唯一在公开权威代码榜上有交代的。
  • ——原生多模态,图、视频、桌面操作都能进。

三件事同时集齐 + 开放权重,M3 目前是全球头一个。

价格也实在:1M 内输入 ¥2.1/百万 token、输出 ¥8.4/百万 token(永久五折后)。

但它不是没有短板:

  1. 和最顶尖的 Claude Opus 4.8(69.2%)还差约 10 个百分点——是"逼近",不是"追平"。
  2. **59% 不是裸模型分数。**官方明确:SWE-Bench Pro 跑在"内部 infrastructure + Claude Code scaffold"上。也就是说,这是"MiniMax M3 模型 + Claude Code 框架"的组合成绩。Kimi、GLM 同理,各家 scaffold 不同——这一点决定了横向排名不能太当真。
  3. 实测有冷水:53AI、302.AI 都反映 M3 有时"读了一大堆文件,最后输出质量一般",即时响应有延迟。读得进去 ≠ 写得出来,这是 M3 下一道坎。

一句话:M3 是当下"最全面、最能直接上手"的那个。要立刻干活、要长上下文、要多模态,选它不会错。


二、Kimi K2.7-Code:最省,但跑分别全信

发布:6 月 12 日 | 1T 总参 / 32B 激活 MoE | 256K 上下文 | 开放权重(已落地)

K2.7-Code 的卖点只有一个字:

  • 相比上一代 K2.6,思考 token 平均减少约 30%,长上下文里指令遵循更可靠。
  • 官方自家 Code Bench v2 涨了 21.8%。
  • 价格延续月之暗面一贯打法:输入 $0.95/百万 token、输出 $4.00/百万 token(cache hit 低至 $0.19),约为 Claude Opus 的几分之一。

月之暗面看准了当下 Coding Agent 真正的痛点——不是"能不能做",而是"做一遍要烧多少钱 token"。所以这一代押的是效率,方向是对的。权重也直接上了 HuggingFace,支持 Claude Code、Cline / RooCode 接入。

但有一个争议必须摆出来:

  1. 官方那组大涨(Code Bench +21.8%、Program Bench、MLS Lite 等)是自家基准。VentureBeat 直接写了标题——"practitioners say benchmarks don't check out"(从业者认为基准数据对不上)。
  2. 独立测试里发现了 kernel regressions,第三方在公开基准上的完整验证还缺位。
  3. 有人指出 Kimi 在 SWE-bench 上用的是自定义测试框架,这能解释模型卡和 API 实测之间的落差。

一句话:K2.7-Code 比 K2.6 强、方向对、token 效率提升是真的能感受到的——但"强多少"先别急着全信厂商数字,等独立榜单。在"省钱 + 立刻可用"这个赛道,它现在是性价比最高的一个。


三、GLM-5.2:最有潜力,但还没到兑现日

发布:6 月 13 日(配合 ZCode 3.0) | 参数架构未公开 | 可选 1M 上下文 | MIT 开源"下周"兑现

GLM-5.2 这一家我要说得比前两家更克制,因为能确认的公开信息最少。

可以确认的:

  • 立即可用于所有 GLM Coding Plan 用户(Lite / Pro / Max / Team),配置项 glm-5.2[1m] 可启用 1M 上下文。
  • 支持 High / Max 两种 thinking effort,官方推荐 coding 任务用 Max 模式。
  • 计划下周:API + Chatbot 上线,并按 MIT License 开源完整权重。
  • 工具兼容性强:支持 Claude Code、OpenClaw、Cline,改一行配置即可切换——被视为"避免 vendor lock-in"的正确做法。
  • ZCode 3.0 把第三方 Agent 框架全拆了,换成自研内核,赌的是"模型 + 自家 Agent 工具"的闭环

不能确认、但容易被误传的:

  • GLM-5.2 的完整参数和架构——目前没有公开模型卡,是否沿用前代 744B/40B,没有官方佐证。
  • GLM-5.2 在 SWE-Bench Pro / Terminal-Bench 上的成绩——公开渠道查不到。网上流传的 58.4% 其实是上一代 GLM-5.1 的成绩,不是 5.2。
  • 多模态能力——Coding Plan 文档主要以 text 输入和 coding agent 场景为主,暂不下结论。

但有两个信号分量很重:

一是时间窗口的政治意味。GLM-5.2 MIT 开源的窗口,正好赶上美国对 Anthropic Fable 5 / Mythos 5 限制对外访问。"一边把顶级模型锁起来,一边把自家旗舰撒出去"——这个对比在 X 上讨论热度最高,被视为中国 AI 在"开放 vs 封闭"赛道上的主动出击。

二是独立评测人的判断。知乎答主 toyama nao(业内称"大模型观测员",常年维护公信力较高的"nao 榜")给 GLM-5.2 的定性是**"跻身第一梯队"**,最狠的一句是:

通过中转站用 Opus 的人,都必须面对一个问题——你用的 Opus 如果是 GLM-5.2 冒充的,你可能分辨不出来,甚至表现更好。

考虑到中转站冒充是当下真实存在的灰产,这个评价的分量不轻。但这是早期口碑,不是 benchmark 级硬证据。

价格路线也跟前两家不一样:GLM-5.2 被对标成 Claude Opus 那一档,API 高峰期 3 倍计费;GLM Coding Plan 分 Lite / Pro / Max,大致 ¥20–49 / ¥100–149 / ¥469 每月。智谱走的是"高定位、高收费",赌的是专业用户愿意为品质付费。

GLM 的老问题也还在:。有开发者对比过,GLM 一次做对要花 10 分钟,DeepSeek 两次做对只要 6 分钟;LINUX DO 测评也提到 5.2 的上下文注意力可能还不如上一代 4.6。品质在线,但速度和稳定性,是它要对得起那个"Opus 价"还得补的功课。

一句话:GLM-5.2 是三家里"上限最高、悬念最大"的——口碑最响、姿态最开放,但硬数据最缺、价格最贵、还没真正开源。它强不强,等下周模型卡,也等你的终端。


四、六个维度横着比一遍

把三家放到同一张表里,直接看:

维度 MiniMax M3 Kimi K2.7-Code GLM-5.2
长上下文 🥇 1M,且计算成本可控(MSA) 🥉 256K 🥈 可选 1M(glm-5.2[1m])
公开权威跑分 🥇 SWE-Bench Pro 59.0%(权威榜) 🥈 自家 Code Bench v2(被质疑) ❌ 暂无公开数据
Token 效率 / 性价比 🥈 中等 🥇 思考 token −30%,单价最低 🥉 对标 Opus,最贵
多模态 🥇 原生多模态(图/视频/桌面) 未确认 未确认
开放程度 🥈 开放权重(minimax-community,非 OSI 开源) 🥈 开放权重(已落地) 🥇 计划 MIT 开源(尚未兑现)
Agent 工具闭环 🥉 借 Claude Code 当 scaffold 🥈 兼容主流工具 🥇 自研 ZCode 内核,深度绑定
立即可用度 🥇 权重已放、能上手 🥇 权重已放、能上手 🥉 多数人还得走 Coding Plan 付费

注意:这张表里的跑分一行,严格说不能横向比。 因为 scaffold 不同:

  • MiniMax M3 的 SWE-Bench Pro → 内部 infrastructure + Claude Code scaffold。
  • Kimi 的成绩 → Kimi Code CLI;对比组里 GPT-5.5 用 Codex,Opus 用 Claude Code。
  • GLM → 配合自家 ZCode

scaffold 不同,同一个模型换一个 agent 框架分数就可能变。这些数字反映的是"模型 + agent 框架 + 评测设置"的组合能力,不是纯模型裸能力排名。


五、所以,到底谁更强

分场景,直接给答案:

🏆 综合最强、当下最能打 → MiniMax M3

理由:唯一在公开权威榜上有交代、长上下文计算成本最低、多模态原生、权重已落地、价格也实在。它是三家里"短板最少"的一个。如果你今天就要选一个上手,选 M3。

💰 性价比之王、跑量首选 → Kimi K2.7-Code

理由:token 效率是真的提升,单价是 Opus 的几分之一,月之暗明显然在用低价换量。如果你的场景是大量调用、对成本敏感、愿意接受跑分还没被独立验证,选 Kimi。

🚀 潜力最大、品质赌注最高 → GLM-5.2

理由:独立评测人评价"能伪装 Opus"、MIT 开源姿态最彻底、自研 ZCode 闭环最完整。但代价是——没硬分数、价格最贵、还没真正开源。如果你是专业开发者、愿意为品质付费、能接受"等一等",GLM-5.2 的上限可能是三家最高的。

一张"如果你是 X"的速查

  • 我是大厂工程师,要处理几十万行的真实代码库 → 先试 M3(1M 上下文 + 多模态),不行再换 GLM。
  • 我是独立开发者 / 创业团队,烧不起 tokenKimi K2.7-Code,性价比碾压。
  • 我是品质党,宁可慢一点也要一次做对GLM-5.2 + ZCode,赌它的 Opus 级品质。
  • 我什么都想要、又不想被一家绑死M3(开放权重 + 兼容多工具)。

六、比"谁更强"更重要的一件事

跑分会越来越好看,发布节奏会越来越密。但这一波三家真正告诉我们的,不是"谁更强",而是方向变了:

  • MiniMax 死磕长上下文的计算成本
  • Kimi 死磕 token 效率
  • 智谱死磕代码品质和工具闭环

没有一家在喊"我参数最大""我通用能力最全"。它们都在回答一个具体的问题:Agent 真正落地的时候,哪里还卡着。 这是一个成熟的信号。

另一个信号是开放权重。三家全都开放或计划开放——这在一年前还不常见。当国产厂商愿意把旗舰权重放出来,说明它们对"靠能力挣钱"已经比"靠闭源护城河"更有信心了。 而 GLM-5.2 把这个信号推到了最刺眼的对比上:MIT 开源的窗口,正好是美国封禁 Anthropic 顶级模型对外访问的窗口。"一边锁起来,一边撒出去"——无论最后谁赢,这个姿态本身就是 2026 年中国 AI 给全球开发者的明确信号。

但作为使用者,真正该做的只有一件事:拿自己手上的真实代码库,跑一遍。

  • MiniMax M3 的 1M 上下文,能不能在你那个几十万行的项目里不漂?
  • Kimi K2.7-Code 省 token,省的是真有用功还是省到活儿也省没了?
  • GLM-5.2 到底配不配得上它对标的那个价?

这三个问题,厂商的发布会回答不了,只有你自己的终端能回答。