Kokoro TTS
在 Clore.ai GPU 上运行 Kokoro TTS —— 轻量级的 82M 参数文本到语音模型。
Kokoro 是一个拥有 8200 万参数的文本到语音模型,性能远超其体量。尽管体积很小(显存低于 2 GB),它能够生成非常自然的英语语音,并且即使在低配硬件上也能实现实时或更快的速度。Kokoro 使用 Apache 2.0 许可,内置多种语音风格,支持 CPU 推理,适合实时应用、聊天机器人和边缘部署。
HuggingFace: hexgrad/Kokoro-82M PyPI: kokoro 许可: Apache 2.0
主要特性
82M 参数 — 可用的高质量 TTS 模型中体积最小的之一
< 2 GB 显存 — 几乎可以在任何 GPU 上运行,甚至可以在 CPU 上运行
多种语音风格 — 美式英语、英式英语;男性和女性声音
实时或更快 — 低延迟推理,适合流式处理
流式生成 — 随着音频产生即可输出音频块
多语言支持 — 英语(主要),日语(
misaki[ja]),中文(misaki[zh])Apache 2.0 — 个人和商业用途免费
要求
GPU
任何带 2 GB 显存的设备
按小时费率
显存
2 GB
4 GB
内存
4 GB
8 GB
磁盘
500 MB
1 GB
Python
3.9+
3.11
系统
已安装 espeak-ng
—
Clore.ai 建议: 一块 RTX 3060(~$0.15–0.30/天)绰绰有余。Kokoro 甚至可以在仅有 CPU 的实例上运行,提供极具成本效益的 TTS。
安装
快速开始
使用示例
多语音对比
用不同的声音生成相同文本进行比较:
带速度控制的英式英语
批量文件处理
处理多段文本并拼接成单个有声书风格的文件:
给 Clore.ai 用户的提示
CPU 推理 — Kokoro 足够小可以在 CPU 上运行;适用于成本敏感的工作负载或无法使用 GPU 的情况
流式传输 — 生成器会随着音频产生而输出音频块,可在 Web 应用中实现实时播放
与 WhisperX 结合 — 在语音流水线中使用 WhisperX 进行转录,使用 Kokoro 进行重合成
已预装 Docker — 使用
pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime并添加apt-get install -y espeak-ng到你的启动项语音一致性 — 在项目中保持使用同一语音 ID,以获得一致的叙述体验
成本效率 — 在 RTX 3060 上以 $0.15/天 的成本,Kokoro 是自托管最便宜的 TTS 解决方案之一
# 使用固定种子以获得一致结果
未找到 espeak-ng
运行 apt-get install -y espeak-ng (必需的系统依赖)
ModuleNotFoundError: kokoro
通过以下方式安装 pip install kokoro>=0.9.4 soundfile
音频听起来很机械
尝试不同的声音(例如, af_heart 通常听起来最自然)
日语/中文 无法使用
安装语言扩展: pip install misaki[ja] 或 misaki[zh]
CPU 内存不足
减少每次调用的文本长度;Kokoro 以块流式输出,使内存保持受限
第一次运行缓慢
模型权重将在首次使用时下载(约 200 MB);后续运行将即时可用
最后更新于
这有帮助吗?