Zonos TTS 语音克隆
在 Clore.ai GPU 上运行 Zyphra 的 Zonos TTS 以实现具情感与音高控制的语音克隆。
Zonos 来自 Zyphra 是一个 0.4B 参数的开源权重文本转语音模型,在 200K+ 小时的多语种语音上训练。它能从仅 2–30 秒的参考音频进行零样本语音克隆,并提供对情感、语速、音高变化和音频质量的细粒度控制。输出为高保真 44 kHz 音频。提供两种模型变体:Transformer(最佳质量)和 Hybrid/Mamba(推理更快)。
GitHub: Zyphra/Zonos HuggingFace: Zyphra/Zonos-v0.1-transformer 许可: Apache 2.0
主要特性
从 2–30 秒进行语音克隆 — 无需微调
44 kHz 高保真输出 — 工作室级音频质量
情感控制 — 通过 8 维向量控制快乐、悲伤、愤怒、恐惧、惊讶、厌恶
语速与音高 — 独立的细粒度控制
音频前缀输入 — 可实现低语等难以克隆的行为
多语言 — 英语、日语、中文、法语、德语
两种架构 — Transformer(质量)和 Hybrid/Mamba(速度,RTX 4090 上约 2× 实时)
Apache 2.0 — 个人和商业用途免费
要求
GPU
RTX 3080 10 GB
RTX 4090 24 GB
显存
6 GB(Transformer)
10 GB+
内存
16 GB
32 GB
磁盘
10 GB
20 GB
Python
3.10+
3.11
CUDA
11.8+
12.4
系统
espeak-ng
—
Clore.ai 建议: RTX 3090($0.30–1.00/天)以获得充足余量。RTX 4090($0.50–2.00/天)适用于 Hybrid 模型和最快推理。
安装
快速开始
使用示例
情感控制
Zonos 接受一个 8 维情感向量: [快乐, 悲伤, 厌恶, 恐惧, 惊讶, 愤怒, 其它, 中性].
语速和音高控制
Gradio 网络界面
开放端口 7860/http 在你的 Clore.ai 订单中并打开 http_pub 访问 UI 的 URL。
给 Clore.ai 用户的提示
模型选择 — Transformer 提供最佳质量,Hybrid 提供约 2× 更快的推理(需要 RTX 3000+ GPU)
参考音频 — 10–30 秒的干净语音效果最佳;较短片段(2–5 秒)可用但保真度较低
Docker 设置 — 使用
pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime, 添加apt-get install -y espeak-ng到启动项端口映射 — 暴露
7860/http用于 Gradio UI,8000/http用于 API 服务器种子控制 —— 设置
torch.manual_seed()在生成之前以获得可复现的输出音频质量参数 — 在
audio_qualityconditioning 字段中进行尝试以获得更干净的输出
# 使用固定种子以获得一致结果
未找到 espeak-ng
运行 apt-get install -y espeak-ng (用于音素化的必要项)
CUDA 内存不足(out of memory)
使用 Transformer 模型(比 Hybrid 小);减少每次调用的文本长度
Hybrid 模型失败
需要 Ampere 及以上 GPU(RTX 3000 系列或更新)和 pip install -e ".[compile]"
克隆的声音听起来不对
使用更长的参考片段(15–30 秒),要求语音清晰且背景噪声极少
生成速度慢
Transformer 一般为正常(约 0.5× 实时);Hybrid 在 RTX 4090 上可实现约 2× 实时
ModuleNotFoundError: zonos
确保你是从源码安装的: cd Zonos && pip install -e .
最后更新于
这有帮助吗?