MiniMax M3 来了：半年前说稀疏注意力不成熟，现在直接上了_AI资讯

关键信息：MiniMax M3 正在内部 CKPT 测试中，预计未来几天向开源社区开发者开放评测。技术核心是全新的稀疏注意力架构，1M 上下文下预填充加速 9.7 倍、解码加速 15.6 倍。OpenCode 已提供免费试用。

去年 10 月，MiniMax 发过一篇博客，题目很直白——《为什么 M2 最终选择了全注意力机制？》。里面明确说：稀疏注意力"尚未达到生产就绪状态"。

六个月后，M3 来了。用的是稀疏注意力。

技术迭代的速度有时候比嘴硬快。

MiniMax M3 来了：半年前说稀疏注意力不成熟，现在直接上了

M3 的技术路线：做减法

5 月 26 日，MiniMax 研发负责人 Skyler Miao 在 X 上发了一张架构图。社区立刻开始拆解。

M3 的稀疏注意力做了三件跟 DeepSeek 系列不同的事。

第一，用 GQA，不用 MLA。 DeepSeek V3/V4 用的是 MLA（多头潜注意力），M3 选择了 GQA（分组查询注意力）。好处是 vLLM、SGLang、FlashAttention 这些推理框架可以直接用，不需要为 MLA 做特殊适配。工程风险最小。

第二，在真实的 KV 上算注意力。 DeepSeek CSA 是在压缩后的 KV 上计算，M3 保留了 Softmax 注意力的完整表达能力。代价是 KV Cache 不能随稀疏化缩小，但用显存换质量，这个交易合理。

第三，砍掉了 NSA 的大部分分支。 DeepSeek NSA 有三条并行路径（压缩 + 选择 + 滑动窗口），M3 只保留了"选择"这一个分支。社区叫它"精简版 NSA"——工程优先，别搞太复杂。

一句话总结：M3 选了最保守但最稳的路。

架构图右侧标了两个数字：1M 上下文下，预填充加速 9.7 倍，解码加速 15.6 倍。

解码加速比预填充更高，这其实合理。预填充阶段索引分支还是要扫完全部长度，省的是主注意力开销。解码阶段每个查询只跟选中的 KV 块交互，内存带宽压力直接降低一个数量级。

推算一下稀疏率：假设块大小 64，1M Token 对应约 1.6 万个块。15.6 倍加速意味着每个查询实际只访问了约 6%-7% 的块，有效感受野大约 6-7 万 Token。这个数字和 NSA 论文报告的稀疏率（6%-10%）几乎吻合——说明这类架构在 1M 规模下的最佳平衡点就在这个区间。

从架构图反推整个模型：

MoE 架构大概率保留。 M2 是 230B 总参数 / 约 10B 激活 / Top-2 路由，M2.7 已经把专家数量提到 256。M3 没理由放弃 MoE，大概率是往更深更宽的方向走。

多模态。 阿岛（MiniMax 工程团队负责人）在开发者讨论区透露，M3 是"多模态、长上下文"模型，而且"链路需要一个不小的升级"。这说明 M3 不只是文本模型的升级，还涉及多模态处理管线。

多个参数版本。 网易的报道提到 M3 会有多个参数规模的版本，覆盖不同场景。

M3 目前没有公开发布，但 MiniMax 已经在拉开发者做提前评测了。

方式很直接——邀请制。在开发者讨论群里，MiniMax 工程团队负责人阿岛说：

希望未来几天提供 CKPT/API 给开源社区的开发者们评测，同时在本群可以和我们的研究员、工程师做比较高质量的讨论。

加入条件是：贡献过开源项目，或者自己做过有意思的开源项目，或者在工作中开发过 AI/Agent 项目。门槛不高，但也不是谁都行。

另外，OpenCode 已经上线了 M3 的免费试用。想尝鲜的可以先去那边试试。

摩根士丹利 4 月发过一份报告，核心判断是：M3 模型升级后，MiniMax 可能会上调 API 价格。

逻辑很简单——性能提升 10-15 倍，成本结构变了，不涨价说不通。而且国内大模型市场目前的价格战打得再狠，到了真正有代差的模型出来，定价权还是会回到性能领先的一方。

当然，"可能"不等于"一定"。MiniMax 也可能选择用降价换市场份额。但现在说这个还早——模型都没正式发布。

M2 说稀疏注意力不成熟，M3 就上了。半年时间，从"不成熟"到"生产就绪"。这说明不是稀疏注意力本身不成熟，是 MiniMax 自己还没准备好。