小米 MiMo V2.5 宣布永久降价 99%,开源模型价格战再升级

北京时间2026年5月27日零点,小米MiMo开放平台正式生效新一轮API价格调整。这次不是小幅微调——缓存命中输入价格降幅最高达到99%。

如果你最近关注开源模型,应该已经注意到MiMo V2.5系列过去一个月在开发者社区刷屏了。这次降价算是给已经很高的讨论热度又添了一把柴。

官方公告要点

小米在公告中将这次调价称为"对整个模型价格体系进行一次永久性翻新"。核心内容概括为四项:

  • MiMo-V2.5 系列 API 永久降价
  • Token Plan 计费体系优化,用量提升至原来的 5-8 倍
  • 百万亿 Token 创造者激励计划圆满收官
  • 当前有效 Token Plan 用户额度全量重置

生效时间为北京时间 2026 年 5 月 27 日 0:00,全球同步调整。

详细降价方案

相比原始 API 定价,新定价最高降幅达 99%,且不再区分输入长度。以下是完整的定价对比:

小米 MiMo V2.5 宣布永久降价 99%,开源模型价格战再升级

MiMo-V2.5-Pro

类型 新价格 vs V2.5旧 vs V2.5-Pro旧
输入(命中缓存) ¥0.025/M tokens ¥1.40 ↓98% ¥2.80 ↓99%
输入(未命中缓存) ¥3.00/M tokens ¥7.00 ↓57% ¥14.00 ↓79%
输出 ¥6.00/M tokens ¥21.00 ↓71% ¥42.00 ↓86%

MiMo-V2.5

类型 新价格 vs V2.5旧 vs V2.5-Pro旧
输入(命中缓存) ¥0.020/M tokens ¥0.56 ↓96% ¥1.12 ↓98%
输入(未命中缓存) ¥1.00/M tokens ¥2.80 ↓64% ¥5.60 ↓82%
输出 ¥2.00/M tokens ¥14.00 ↓86% ¥28.00 ↓93%
那个99%是怎么来的?
MiMo-V2.5-Pro 缓存命中输入价格从 ¥2.80/M 压到 ¥0.025/M,降幅 99%。换算一下:100万 Token 的缓存输入只要 2.5 分钱。对长文档处理、多轮对话、Agent 场景来说,缓存命中率上去之后,实际使用成本会比纸面价格低得多。

另外几点补充:

  • MiMo-V2.5-TTS 系列继续提供免费接入,MiMo-V2-Pro 与 MiMo-V2-Omni 的 API 价格维持原价不变
  • 不再区分输入长度:简化了计费结构,不用再去算上下文窗口长度的账
  • V2 系列即将下线:老模型价格不变,建议尽快切换到 V2.5

Token Plan 体系大变

除了按量计费降价,Token Plan 套餐也做了全面升级。定价不变,但 Credits 额度大幅提升:

套餐 定价 调整前 调整后
Lite ¥39 0.6亿 41亿
Standard ¥99 2亿 110亿
Pro ¥329 7亿 380亿
Max ¥659 16亿 820亿

Credits 与 Token 的换算关系也重新设定:

模型 命中缓存 未命中缓存 输出
mimo-v2.5-pro 2.5 Credits/token 300 Credits/token 600 Credits/token
mimo-v2.5 2 Credits/token 100 Credits/token 200 Credits/token
mimo-v2-pro 140 Credits/token 700 Credits/token 2100 Credits/token
mimo-v2-omni 56 Credits/token 280 Credits/token 1400 Credits/token

注意:MiMo-V2-Pro 与 MiMo-V2-Omni 的 Token Plan 不参与调整,并即将下线。

现有用户额度全量重置
无论当前套餐用量如何,所有已订阅 Token Plan 且当前仍在有效期的用户(包括参与百万亿 Token 创造者激励计划获得 Token Plan 的用户,涵盖 Apache 软件基金会专属福利用户),Credits 额度将于 5 月 27 日 0:00 全量重置,按新计费规则执行。

另外,针对 Token Plan 已过期的历史付费用户,小米表示将在"未来一周"宣布惊喜好礼。

Token Plan 实际可用量(按 95%+ 缓存命中率场景估算)

在 Agent/Code 这类缓存命中率较高的场景下,各套餐升级后实际可用的 Token 数量:

使用 MiMo-V2.5 使用 MiMo-V2.5-Pro
Lite ¥39 500M+ Lite ¥39 190M+
Standard ¥99 1300M+ Standard ¥99 500M+
Pro ¥329 4700M+ Pro ¥329 1800M+
Max ¥659 10000M+ Max ¥659 3900M+

降价背后的技术支撑

小米在公告中说明了这次价格调整的技术依据:

基于 SGLang HiCache 完整支持 SWA(Sliding Window Attention,滑动窗口注意力机制),将 KV Cache 在 GPU 显存、CPU 内存、SSD 等多级存储之间的数据搬运量降低至优化前的近 1/7,并将可缓存 token 数量提升至优化前的近 5 倍,显著提升了缓存命中率和推理效率。

同时,通过优化专家并行方案、输入长度分桶策略等,进一步提升了集群输入吞吐能力,从而在保障服务质量的前提下持续降低单位 token 服务成本。

百万亿 Token 激励计划收官数据

「百万亿 Token 创造者激励计划」自 4 月 28 日上线,到 5 月 26 日 16:08 全部发放完毕,提前收官。官方公布的数据:

总申请人数 548,664 通过率 43.74%
累计发放数量 241,879 发放 Token 100 万亿
折合人民币金额 ¥65,834,211    

用户主要来自科学研究、先进工业、内容创作、电商零售、金融等行业。

注:Apache 软件基金会成员专属福利活动长期有效,可继续申请,不受本次收官影响。


开发者社区实测反馈

价格是一回事,实际用起来怎么样是另一回事。我整理了过去一个月 Reddit、知乎、36氪等平台上开发者的实测反馈。

好评集中在几个方向

Token 效率高——这是被提到最多的优点。多个开发者对比后发现,完成同样的编程任务,MiMo V2.5 Pro 消耗的 Token 比 Claude Opus 4.6、GPT-5.4、Gemini 少 40% 到 60%。一位开发者在 Reddit 上记录了三周使用数据:301 次 commits、60 多页代码,API 总花费约 70 美元。考虑到任务复杂度,这个数字确实不贵。

Agent 能力——MiMo V2.5 系列是专门为 Agent 场景做原生优化的,不是通用模型套个 Agent 壳。在 Claw-Eval 评测中,V2.5-Pro 的 Agent 表现接近 Claude Opus 4.6 水平。有开发者用它从零写了一个完整编译器,耗时约 4.3 小时。还有一次"无中断生成 macOS 模拟"的测试也引发了不少讨论。

Claude Code 适配好——国内多个博主实测后认为,MiMo V2.5-Pro 是"目前国内最适合 Claude Code 的模型之一"。工具调用链路比较顺畅,Coding 开发能力也"意外地不错"。

开源协议友好——MIT 协议意味着商用没门槛,这点在国内模型里比较少见。

吐槽也不少

幻觉问题——这是开发者反馈中出现频率最高的负面评价。模型会"凭空猜测接口文档",生成的代码里混入不存在的 API。在数据处理脚本的审查测试中,V2.5 Pro 没能发现 GPT 和 Claude 能稳定揪出的隐秘 bug。这一点在复杂项目里比较致命。

前端审美短板——多位博主提到,让 V2.5 Pro 生成前端页面,视觉效果"有点劝退"。代码能跑,但样式和布局需要人工大量调整。

推理预算受限——有开发者指出模型"缺乏长链推理训练",自主思考时对需求细节的覆盖度不如 GPT-5.4。Pro 版的思考时间也偏长,等结果需要耐心。

Coding Plan 额度争议——小米推出的 Coding Plan 宣称提供 16 亿 credit,但有用户反映"第二天就消耗了 50% 的 Token 额度",而且当天并没有进行重度编码工作。部分用户在 Reddit 和 V2EX 上称其为"误导营销"。

控制台体验一般——缺少调用日志和 trace 功能,出了问题不好排查。联网检索能力也被认为偏弱。

超长上下文推理衰减——有技术分析指出,MiMo V2 Pro 在超过 128K token 后性能迅速下降,在 1M token 时得分降至 0。

一句话总结开发者的态度

简单项目、日常编码、工具类任务——MiMo V2.5 Pro 性价比很高,Token 效率确实能打。复杂项目、需要深度 debug 的场景——幻觉问题绕不开,还是得靠人工把关。价格降下来之后,试错成本更低了,但这不等于模型本身没有短板。

写在最后

MiMo V2.5 系列这次降价,加上之前 4 月底的开源和百万亿 Token 免费计划,小米在 AI 开发者生态上的投入力度确实不小。雷军说过今年 AI 领域投入要超 160 亿,未来三年至少要 600 亿,这些钱花在哪,从模型定价策略上能看出来——先用低价和开源抢开发者,再用 Agent 场景的能力建立壁垒。

至于模型本身,Agent 能力和 Token 效率是长板,幻觉和细节处理是短板。降价之后,短板的代价也变低了。对还在观望的开发者来说,现在试用的门槛已经够低了,值不值得用,跑几个自己的项目就知道了。