AI资讯

有声书主播要失业？实测清华 VoxCPM2：连呼吸声都能克隆的“终极方案”开源了！

作者：icech 来源：威易网 2026-04-12 17:24:03

AI 音频领域迎来了一次重磅突破。清华大学 OpenBMB 团队正式发布了 VoxCPM2，这是一个拥有 20 亿参数、经过 200 万小时多语言数据训练的音频大模型。它不仅实现了 48kHz 录音棚级的音质，更在底层架构上彻底告别了传统的 Tokenizer 模式。

1. 核心突破：告别离散 Token，拥抱连续潜空间

传统的 TTS（从文本到语音）模型通常先将音频切碎成离散的 Token 再进行生成，这种方式不可避免地会导致音频信息的细节损失。VoxCPM2 采用了更先进的方案：

无 Tokenizer 设计： 直接在连续潜空间（Continuous Latent Space）中进行扩散自回归建模。
音质保真： 相比离散模型，它能保留更完整的音色细节，让合成出来的声音听起来更具“人情味”。

2. 性能与功能“硬指标”

VoxCPM2 不仅仅是在音质上出众，在工程落地和功能多样性上同样表现强悍：

方言与语种： 原生支持 30 多种语言，甚至涵盖了 9 种中文方言，极大地丰富了地域化应用场景。
极致延迟： 在 RTX 4090 上，其实时率（Real-time factor）低至 0.13，流式输出几乎做到了即点即播。
自然语言生成声音： 无需任何参考音频，你只需要用一段文字描述（如“磁性的中年男声，略带沙哑”），它就能凭空创造出符合要求的声音。
精细化控制： 声音克隆后，你可以自由调节情绪、语速和表达方式。
开源协议： 采用 Apache 2.0 协议，对商业使用非常友好。

3. “终极克隆”模式：连呼吸都有戏

VoxCPM2 最令人惊叹的功能莫过于其“终极克隆”模式。当你提供一段参考音频和目标文本时，它不仅能复刻音色，甚至连原声中的呼吸节奏、停顿感、甚至是特定的口癖等微妙的细节都能一一复刻。这使得它在处理高难度的有声书内容或角色配音时，能够达到难辨真假的程度。

4. 应用前景：开源方案已成气候

随着 VoxCPM2 在 GitHub 斩获万星并持续霸榜 HuggingFace Trending，开源音频方案已经正式进入成熟期。对于以下场景，VoxCPM2 提供了一个性价比极高的顶尖方案：

播客与有声书： 自动生成具有呼吸感和情感起伏的长音频。
游戏配音： 快速为不同性格的角色生成独特音色。
短视频旁白： 秒级克隆热门音色或生成独一无二的解说声音。

5. 总结与链接

VoxCPM2 的出现，标志着音频生成从“机械合成”真正走向了“艺术表达”。对于开发者和内容创作者来说，这无疑是目前最值得关注的开源音频项目之一。

如果你想体验这款“录音棚级”的开源之作，可以通过以下链接深入了解：

GitHub 仓库：OpenBMB/VoxCPM
模型演示与体验：HuggingFace - OpenBMB

VoxCPM2 TTS AI 有声书声音克隆