VoxCPM

VoxCPM 是一个基于连续空间建模的端到端文本转语音（TTS）系统。它摒弃了传统的离散 Token 化方法，支持根据文本语境自动生成富有表现力的语音，并能通过极短的参考音频实现逼真的零样本声音克隆，适用于高质量的语音合成与配音场景。

一分钟了解#

VoxCPM 是一款新一代的开源 TTS（文本转语音）大模型，旨在解决传统语音合成中情感表现力不足和克隆生硬的问题。它利用扩散自回归技术和 MiniCPM-4 骨干网络，直接在连续空间中生成语音，无需离散 Token。

核心价值：它不仅能让机器朗读"有感情"，还能通过几秒钟的音频样本完美复制任意人的音色、语调甚至口音，同时在消费级显卡上实现实时合成速度。

快速上手#

安装难度：中 - 需要 Python 环境及深度学习框架依赖，推荐使用 GPU 进行推理。

# 1. 安装核心库
pip install voxcpm

# 2. 下载模型（可选，运行时会自动下载）
# 使用 Hugging Face
huggingface-cli download openbmb/VoxCPM1.5 --local-dir ./VoxCPM1.5

适合我的场景吗？

✅ 有声书/长内容制作：模型能理解上下文，自动调整朗读的情感和韵律。

✅ 个性化声音克隆：仅需一段参考音频，即可零样本复刻声音。

✅ 实时语音助手：支持流式合成，响应速度极快（RTF 低至 0.15）。

❌ 极度受限的边缘设备：模型参数量较大（约 0.8B），纯 CPU 或低端设备运行较慢。

Python SDK：直接调用 voxcpm 库进行二次开发。
CLI 工具：提供命令行工具，支持单句合成、批量处理和语音克隆。
社区扩展：支持 ComfyUI 插件、ONNX 导出（加速推理）及 Rust 重写版本。

生态与扩展#

得益于活跃的开源社区，VoxCPM 已衍生出多种扩展方案：

ComfyUI 集成：通过 ComfyUI 节点实现可视化的语音合成工作流。
多平台部署：社区提供了 ONNX 版本以支持 CPU 推理，以及针对 Apple Neural Engine 的优化后端。
高性能推理：集成 NanoVLLM 实现更高的 GPU 吞吐量。

维护状态#

开发活跃度：活跃。项目方持续更新权重（近期发布 VoxCPM1.5），并频繁修复问题。
社区响应：良好。已有多个社区贡献的插件和扩展（如 ComfyUI, Rust 实现）。
文档质量：完善。提供详细的使用指南、微调教程及 API 文档。

商用与许可#

许可证：Apache-2.0

✅ 商用：允许
✅ 修改：允许
⚠️ 限制：虽然许可证宽松，但项目方明确警告严禁利用该强大的克隆能力制作 Deepfake（深度伪造）、欺诈或侵犯他人权益的内容。公开发布生成内容时必须标注为 AI 生成。

一分钟了解#

快速上手#

核心能力#

1. 语境感知与情感生成 - 解决"朗读腔"#

2. 极速零样本声音克隆 - 解决"复刻难"#

3. 高效推理与流式合成 - 解决"延迟高"#

4. 灵活的微调能力#

技术栈与集成#

生态与扩展#

维护状态#

商用与许可#

相关项目

oh-my-codex

Ironcurtain

vibe-remote

保持更新