Chatterbox 语音克隆
在 Clore.ai GPU 上运行 Resemble AI 的 Chatterbox TTS,实现零样本语音克隆与多语言语音合成。
Chatterbox 是由以下公司开发的一系列最先进的开源文本转语音模型: Resemble AI。它可以从短的参考片段(约 10 秒)进行零样本语音克隆,支持诸如以下的副语言标签, [laugh] 和 [cough],并提供覆盖 23+ 语言的多语言变体。提供三种模型变体:Turbo(350M,低延迟)、Original(500M,具有创造性控制)和 Multilingual(500M,支持 23+ 语言)。
GitHub: resemble-ai/chatterbox PyPI: chatterbox-tts 许可: MIT 协议
主要特性
零样本语音克隆 — 从约 10 秒的参考音频克隆任意声音
副语言标签 (Turbo)—
[laugh],[cough],[chuckle],[sigh]用于真实感语音23+ 种语言 (Multilingual)— 阿拉伯语、中文、法语、德语、日语、韩语、俄语、西班牙语等
CFG 与夸张度调节 (Original)— 对表现力的创造性控制
三种模型规模 — Turbo(350M)、Original(500M)、Multilingual(500M)
MIT 许可证 — 完全开放以供商业使用
要求
GPU
RTX 3060 12 GB
RTX 3090 / RTX 4090
显存
6 GB
10 GB+
内存
8 GB
16 GB
磁盘
5 GB
15 GB
Python
3.10+
3.11
CUDA
11.8+
12.1+
Clore.ai 建议: RTX 3090(($0.30–1.00/天)以获得舒适的显存余量。RTX 3060 可用于 Turbo 模型。对于处理长文本的 Multilingual 模型,建议考虑 RTX 4090($0.50–2.00/天)。
安装
快速开始
Turbo 模型(最低延迟)
Original 模型(英语,创造性控制)
使用示例
多语言语音克隆
副语言标签(Turbo)
批处理脚本
给 Clore.ai 用户的提示
模型选择 — 对低延迟语音代理使用 Turbo,针对英语创造性工作使用 Original,针对非英语内容使用 Multilingual
参考音频质量 — 使用干净、无噪声的 10–30 秒片段以获得最佳语音克隆效果
Docker 设置 — 基础镜像
pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime,暴露端口7860/http用于 Gradio内存管理 — 在生产使用前调用
torch.cuda.empty_cache()在大型批次之间以释放显存支持的语言 — ar, da, de, el, en, es, fi, fr, he, hi, it, ja, ko, ms, nl, no, pl, pt, ru, sv, sw, tr, zh
HuggingFace Space — 在租用前先在以下地址试用 huggingface.co/spaces/ResembleAI/Chatterbox
# 使用固定种子以获得一致结果
CUDA 内存不足(out of memory)
使用 Turbo(350M)替代 Original/Multilingual(500M),或租用更大的 GPU
克隆的语音不匹配
使用更长(15–30 秒)、更干净且背景噪声极少的参考片段
numpy 版本冲突
运行 pip install numpy==1.26.4 --force-reinstall
模型下载缓慢
模型在首次运行时从 HuggingFace 获取(约 2 GB);可使用以下方式预先下载 huggingface-cli
音频有瑕疵
减少每次生成的文本长度;非常长的文本会降低质量
ModuleNotFoundError
确保已安装 pip install chatterbox-tts 已完成且无错误;请检查 Python 3.11 的兼容性
最后更新于
这有帮助吗?