Kokoro TTS

在 Clore.ai GPU 上运行 Kokoro TTS —— 轻量级的 82M 参数文本到语音模型。

Kokoro 是一个拥有 8200 万参数的文本到语音模型,性能远超其体量。尽管体积很小(显存低于 2 GB),它能够生成非常自然的英语语音,并且即使在低配硬件上也能实现实时或更快的速度。Kokoro 使用 Apache 2.0 许可,内置多种语音风格,支持 CPU 推理,适合实时应用、聊天机器人和边缘部署。

HuggingFace: hexgrad/Kokoro-82Marrow-up-right PyPI: kokoroarrow-up-right 许可: Apache 2.0

主要特性

  • 82M 参数 — 可用的高质量 TTS 模型中体积最小的之一

  • < 2 GB 显存 — 几乎可以在任何 GPU 上运行,甚至可以在 CPU 上运行

  • 多种语音风格 — 美式英语、英式英语;男性和女性声音

  • 实时或更快 — 低延迟推理,适合流式处理

  • 流式生成 — 随着音频产生即可输出音频块

  • 多语言支持 — 英语(主要),日语(misaki[ja]),中文(misaki[zh])

  • Apache 2.0 — 个人和商业用途免费

要求

组件
最低
推荐

GPU

任何带 2 GB 显存的设备

按小时费率

显存

2 GB

4 GB

内存

4 GB

8 GB

磁盘

500 MB

1 GB

Python

3.9+

3.11

系统

已安装 espeak-ng

Clore.ai 建议: 一块 RTX 3060(~$0.15–0.30/天)绰绰有余。Kokoro 甚至可以在仅有 CPU 的实例上运行,提供极具成本效益的 TTS。

安装

快速开始

使用示例

多语音对比

用不同的声音生成相同文本进行比较:

带速度控制的英式英语

批量文件处理

处理多段文本并拼接成单个有声书风格的文件:

给 Clore.ai 用户的提示

  • CPU 推理 — Kokoro 足够小可以在 CPU 上运行;适用于成本敏感的工作负载或无法使用 GPU 的情况

  • 流式传输 — 生成器会随着音频产生而输出音频块,可在 Web 应用中实现实时播放

  • 与 WhisperX 结合 — 在语音流水线中使用 WhisperX 进行转录,使用 Kokoro 进行重合成

  • 已预装 Docker — 使用 pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime 并添加 apt-get install -y espeak-ng 到你的启动项

  • 语音一致性 — 在项目中保持使用同一语音 ID,以获得一致的叙述体验

  • 成本效率 — 在 RTX 3060 上以 $0.15/天 的成本,Kokoro 是自托管最便宜的 TTS 解决方案之一

# 使用固定种子以获得一致结果

问题
解决方案

未找到 espeak-ng

运行 apt-get install -y espeak-ng (必需的系统依赖)

ModuleNotFoundError: kokoro

通过以下方式安装 pip install kokoro>=0.9.4 soundfile

音频听起来很机械

尝试不同的声音(例如, af_heart 通常听起来最自然)

日语/中文 无法使用

安装语言扩展: pip install misaki[ja]misaki[zh]

CPU 内存不足

减少每次调用的文本长度;Kokoro 以块流式输出,使内存保持受限

第一次运行缓慢

模型权重将在首次使用时下载(约 200 MB);后续运行将即时可用

最后更新于

这有帮助吗?