Chatterbox 语音克隆

在 Clore.ai GPU 上运行 Resemble AI 的 Chatterbox TTS,实现零样本语音克隆与多语言语音合成。

Chatterbox 是由以下公司开发的一系列最先进的开源文本转语音模型: Resemble AIarrow-up-right。它可以从短的参考片段(约 10 秒)进行零样本语音克隆,支持诸如以下的副语言标签, [laugh][cough],并提供覆盖 23+ 语言的多语言变体。提供三种模型变体:Turbo(350M,低延迟)、Original(500M,具有创造性控制)和 Multilingual(500M,支持 23+ 语言)。

GitHub: resemble-ai/chatterboxarrow-up-right PyPI: chatterbox-ttsarrow-up-right 许可: MIT 协议

主要特性

  • 零样本语音克隆 — 从约 10 秒的参考音频克隆任意声音

  • 副语言标签 (Turbo)— [laugh], [cough], [chuckle], [sigh] 用于真实感语音

  • 23+ 种语言 (Multilingual)— 阿拉伯语、中文、法语、德语、日语、韩语、俄语、西班牙语等

  • CFG 与夸张度调节 (Original)— 对表现力的创造性控制

  • 三种模型规模 — Turbo(350M)、Original(500M)、Multilingual(500M)

  • MIT 许可证 — 完全开放以供商业使用

要求

组件
最低
推荐

GPU

RTX 3060 12 GB

RTX 3090 / RTX 4090

显存

6 GB

10 GB+

内存

8 GB

16 GB

磁盘

5 GB

15 GB

Python

3.10+

3.11

CUDA

11.8+

12.1+

Clore.ai 建议: RTX 3090(($0.30–1.00/天)以获得舒适的显存余量。RTX 3060 可用于 Turbo 模型。对于处理长文本的 Multilingual 模型,建议考虑 RTX 4090($0.50–2.00/天)。

安装

快速开始

Turbo 模型(最低延迟)

Original 模型(英语,创造性控制)

使用示例

多语言语音克隆

副语言标签(Turbo)

批处理脚本

给 Clore.ai 用户的提示

  • 模型选择 — 对低延迟语音代理使用 Turbo,针对英语创造性工作使用 Original,针对非英语内容使用 Multilingual

  • 参考音频质量 — 使用干净、无噪声的 10–30 秒片段以获得最佳语音克隆效果

  • Docker 设置 — 基础镜像 pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime,暴露端口 7860/http 用于 Gradio

  • 内存管理 — 在生产使用前调用 torch.cuda.empty_cache() 在大型批次之间以释放显存

  • 支持的语言 — ar, da, de, el, en, es, fi, fr, he, hi, it, ja, ko, ms, nl, no, pl, pt, ru, sv, sw, tr, zh

  • HuggingFace Space — 在租用前先在以下地址试用 huggingface.co/spaces/ResembleAI/Chatterboxarrow-up-right

# 使用固定种子以获得一致结果

问题
解决方案

CUDA 内存不足(out of memory)

使用 Turbo(350M)替代 Original/Multilingual(500M),或租用更大的 GPU

克隆的语音不匹配

使用更长(15–30 秒)、更干净且背景噪声极少的参考片段

numpy 版本冲突

运行 pip install numpy==1.26.4 --force-reinstall

模型下载缓慢

模型在首次运行时从 HuggingFace 获取(约 2 GB);可使用以下方式预先下载 huggingface-cli

音频有瑕疵

减少每次生成的文本长度;非常长的文本会降低质量

ModuleNotFoundError

确保已安装 pip install chatterbox-tts 已完成且无错误;请检查 Python 3.11 的兼容性

最后更新于

这有帮助吗?