关键信息:MiniMax M3 正在内部 CKPT 测试中,预计未来几天向开源社区开发者开放评测。技术核心是全新的稀疏注意力架构,1M 上下文下预填充加速 9.7 倍、解码加速 15.6 倍。OpenCode 已提供免费试用。
去年 10 月,MiniMax 发过一篇博客,题目很直白——《为什么 M2 最终选择了全注意力机制?》。里面明确说:稀疏注意力"尚未达到生产就绪状态"。
六个月后,M3 来了。用的是稀疏注意力。
技术迭代的速度有时候比嘴硬快。

M3 的技术路线:做减法
5 月 26 日,MiniMax 研发负责人 Skyler Miao 在 X 上发了一张架构图。社区立刻开始拆解。
M3 的稀疏注意力做了三件跟 DeepSeek 系列不同的事。
第一,用 GQA,不用 MLA。 DeepSeek V3/V4 用的是 MLA(多头潜注意力),M3 选择了 GQA(分组查询注意力)。好处是 vLLM、SGLang、FlashAttention 这些推理框架可以直接用,不需要为 MLA 做特殊适配。工程风险最小。
第二,在真实的 KV 上算注意力。 DeepSeek CSA 是在压缩后的 KV 上计算,M3 保留了 Softmax 注意力的完整表达能力。代价是 KV Cache 不能随稀疏化缩小,但用显存换质量,这个交易合理。
第三,砍掉了 NSA 的大部分分支。 DeepSeek NSA 有三条并行路径(压缩 + 选择 + 滑动窗口),M3 只保留了"选择"这一个分支。社区叫它"精简版 NSA"——工程优先,别搞太复杂。
| 维度 | DeepSeek NSA | MiniMax M3 |
|---|---|---|
| KV 底层 | MLA | GQA |
| 选择粒度 | 块级 | 块级 |
| 并行分支 | 3 条 | 1 条 |
| 注意力计算 | 三路融合 | 真实 K/V |
| 索引器 | 压缩分支 | 单头 K + 块最大池化 |
一句话总结:M3 选了最保守但最稳的路。
速度数据:15.6 倍是怎么来的
架构图右侧标了两个数字:1M 上下文下,预填充加速 9.7 倍,解码加速 15.6 倍。
解码加速比预填充更高,这其实合理。预填充阶段索引分支还是要扫完全部长度,省的是主注意力开销。解码阶段每个查询只跟选中的 KV 块交互,内存带宽压力直接降低一个数量级。
推算一下稀疏率:假设块大小 64,1M Token 对应约 1.6 万个块。15.6 倍加速意味着每个查询实际只访问了约 6%-7% 的块,有效感受野大约 6-7 万 Token。这个数字和 NSA 论文报告的稀疏率(6%-10%)几乎吻合——说明这类架构在 1M 规模下的最佳平衡点就在这个区间。
M3 的其他推测
从架构图反推整个模型:
MoE 架构大概率保留。 M2 是 230B 总参数 / 约 10B 激活 / Top-2 路由,M2.7 已经把专家数量提到 256。M3 没理由放弃 MoE,大概率是往更深更宽的方向走。
多模态。 阿岛(MiniMax 工程团队负责人)在开发者讨论区透露,M3 是"多模态、长上下文"模型,而且"链路需要一个不小的升级"。这说明 M3 不只是文本模型的升级,还涉及多模态处理管线。
多个参数版本。 网易的报道提到 M3 会有多个参数规模的版本,覆盖不同场景。
开发者评测:邀请制
M3 目前没有公开发布,但 MiniMax 已经在拉开发者做提前评测了。
方式很直接——邀请制。在开发者讨论群里,MiniMax 工程团队负责人阿岛说:
希望未来几天提供 CKPT/API 给开源社区的开发者们评测,同时在本群可以和我们的研究员、工程师做比较高质量的讨论。
加入条件是:贡献过开源项目,或者自己做过有意思的开源项目,或者在工作中开发过 AI/Agent 项目。门槛不高,但也不是谁都行。
另外,OpenCode 已经上线了 M3 的免费试用。想尝鲜的可以先去那边试试。
大摩:可能要涨价
摩根士丹利 4 月发过一份报告,核心判断是:M3 模型升级后,MiniMax 可能会上调 API 价格。
逻辑很简单——性能提升 10-15 倍,成本结构变了,不涨价说不通。而且国内大模型市场目前的价格战打得再狠,到了真正有代差的模型出来,定价权还是会回到性能领先的一方。
当然,"可能"不等于"一定"。MiniMax 也可能选择用降价换市场份额。但现在说这个还早——模型都没正式发布。
一句话
M2 说稀疏注意力不成熟,M3 就上了。半年时间,从"不成熟"到"生产就绪"。这说明不是稀疏注意力本身不成熟,是 MiniMax 自己还没准备好。
现在准备好了。