Zonos TTS 语音克隆

在 Clore.ai GPU 上运行 Zyphra 的 Zonos TTS 以实现具情感与音高控制的语音克隆。

Zonos 来自 Zyphraarrow-up-right 是一个 0.4B 参数的开源权重文本转语音模型,在 200K+ 小时的多语种语音上训练。它能从仅 2–30 秒的参考音频进行零样本语音克隆,并提供对情感、语速、音高变化和音频质量的细粒度控制。输出为高保真 44 kHz 音频。提供两种模型变体:Transformer(最佳质量)和 Hybrid/Mamba(推理更快)。

GitHub: Zyphra/Zonosarrow-up-right HuggingFace: Zyphra/Zonos-v0.1-transformerarrow-up-right 许可: Apache 2.0

主要特性

  • 从 2–30 秒进行语音克隆 — 无需微调

  • 44 kHz 高保真输出 — 工作室级音频质量

  • 情感控制 — 通过 8 维向量控制快乐、悲伤、愤怒、恐惧、惊讶、厌恶

  • 语速与音高 — 独立的细粒度控制

  • 音频前缀输入 — 可实现低语等难以克隆的行为

  • 多语言 — 英语、日语、中文、法语、德语

  • 两种架构 — Transformer(质量)和 Hybrid/Mamba(速度,RTX 4090 上约 2× 实时)

  • Apache 2.0 — 个人和商业用途免费

要求

组件
最低
推荐

GPU

RTX 3080 10 GB

RTX 4090 24 GB

显存

6 GB(Transformer)

10 GB+

内存

16 GB

32 GB

磁盘

10 GB

20 GB

Python

3.10+

3.11

CUDA

11.8+

12.4

系统

espeak-ng

Clore.ai 建议: RTX 3090($0.30–1.00/天)以获得充足余量。RTX 4090($0.50–2.00/天)适用于 Hybrid 模型和最快推理。

安装

快速开始

使用示例

情感控制

Zonos 接受一个 8 维情感向量: [快乐, 悲伤, 厌恶, 恐惧, 惊讶, 愤怒, 其它, 中性].

语速和音高控制

Gradio 网络界面

开放端口 7860/http 在你的 Clore.ai 订单中并打开 http_pub 访问 UI 的 URL。

给 Clore.ai 用户的提示

  • 模型选择 — Transformer 提供最佳质量,Hybrid 提供约 2× 更快的推理(需要 RTX 3000+ GPU)

  • 参考音频 — 10–30 秒的干净语音效果最佳;较短片段(2–5 秒)可用但保真度较低

  • Docker 设置 — 使用 pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime, 添加 apt-get install -y espeak-ng 到启动项

  • 端口映射 — 暴露 7860/http 用于 Gradio UI, 8000/http 用于 API 服务器

  • 种子控制 —— 设置 torch.manual_seed() 在生成之前以获得可复现的输出

  • 音频质量参数 — 在 audio_quality conditioning 字段中进行尝试以获得更干净的输出

# 使用固定种子以获得一致结果

问题
解决方案

未找到 espeak-ng

运行 apt-get install -y espeak-ng (用于音素化的必要项)

CUDA 内存不足(out of memory)

使用 Transformer 模型(比 Hybrid 小);减少每次调用的文本长度

Hybrid 模型失败

需要 Ampere 及以上 GPU(RTX 3000 系列或更新)和 pip install -e ".[compile]"

克隆的声音听起来不对

使用更长的参考片段(15–30 秒),要求语音清晰且背景噪声极少

生成速度慢

Transformer 一般为正常(约 0.5× 实时);Hybrid 在 RTX 4090 上可实现约 2× 实时

ModuleNotFoundError: zonos

确保你是从源码安装的: cd Zonos && pip install -e .

最后更新于

这有帮助吗?