专为对话场景(如LLM助手)优化的生成式语音模型,支持中英文混合输入,能够生成自然且富有表现力的语音,并提供对笑声、停顿等韵律特征的细粒度控制。
一分钟了解#
ChatTTS 是一个专为对话场景(如 AI 助手、角色扮演)设计的生成式语音模型,特别擅长处理中英文混合的文本输入。
核心价值:它能生成比大多数开源 TTS 模型更自然、更符合人类对话习惯的语音,支持多说话人以及对笑声、停顿的精细控制。
快速上手#
安装难度:中等 - 需要配置 Python 3.11+ 及 PyTorch 环境
# 克隆仓库
git clone https://github.com/2noise/ChatTTS
cd ChatTTS
# 安装依赖
pip install --upgrade -r requirements.txt
适合我的场景吗?
- ✅ AI应用开发:为虚拟助手或 NPC 配音,需要自然的对话感。
- ✅ 语音合成研究:探索韵律控制或多说话人合成技术。
- ❌ 纯商业产品:该模型使用 CC BY-NC 4.0 许可,严禁商业用途。
- ❌ 对音质有极致要求:为了防止滥用,开源版本音频质量有所压缩(MP3格式)。
核心能力#
1. 对话式语音合成 - 解决机器音问题#
- 专门针对 LLM 助手等对话场景进行优化,生成的语音流畅度高,具备自然的抑扬顿挫。 实际价值:显著提升 AI 交互的拟人化体验,减少用户的听觉疲劳。
2. 细粒度韵律控制 - 解决情感单调问题#
- 支持在文本中插入特殊标记(如
[laugh],[break])来控制笑声、停顿和语气词。 实际价值:开发者可以精确控制语音的情感节奏,让对话更有戏感。
3. 多说话人支持 - 解决角色单一问题#
- 模型内置了多说话人支持,并能从高斯分布中采样随机说话人嵌入(Embedding)。 实际价值:适用于需要多角色互动的场景,无需训练新模型即可切换音色。
维护状态#
- 开发活跃度:活跃,社区驱动的扩展项目丰富。
- 最近更新:持续更新中,包括流式生成和 DVAE 编码器的 Roadmap。
- 社区响应:拥有 QQ 群和 Discord 社区,Issue 响应积极。
商用与许可#
许可证:AGPLv3+ (代码) / CC BY-NC 4.0 (模型)
- ✅ 商用:禁止(模型仅限学术和教育用途)
- ✅ 修改:允许(需保留署名)
- ⚠️ 限制:严禁用于任何非法或恶意目的