TTS 引擎比较

比较适用于 Clore.ai GPU 服务器部署的领先开源文本转语音引擎。

circle-info

文本转语音(TTS) 将书面文本转换为自然听感的音频。本指南比较五款领先的开源 TTS 引擎:XTTS v2、Bark、Kokoro、Fish Speech 和 MeloTTS —— 涵盖质量、速度、语言支持和语音克隆能力。


快速决策矩阵

XTTS v2
Bark
Kokoro
Fish Speech
MeloTTS

开发者

Coqui AI

Suno AI

Hexgrad

Fish Audio

MyShell AI

速度

⭐⭐⭐⭐⭐

⭐⭐⭐⭐

⭐⭐⭐⭐

⭐⭐⭐⭐⭐

⭐⭐⭐

适用场景

高细节

较慢

通用使用

通用使用

最快

语音克隆

✅(3 秒片段)

✅(语音预设)

✅(有限)

✅(10 秒片段)

语言

17

10+

英语

8+

8

最低显存

4GB

8GB

CPU 可用

4GB

CPU 可用

许可

CPML(非商业)

MIT

Apache 2.0

CC BY-NC-SA

MIT

GitHub 星标

35K+(Coqui TTS)

38K+

12K+

14K+

15K+


概览

XTTS v2

Coqui 的 XTTS v2 是开源语音克隆 TTS 的黄金标准。它能从 3 秒音频片段中克隆任何声音,保真度极高。

理念:最大化表现力和语音克隆质量。

Bark

Suno 的 Bark 是基于变换器的 TTS 模型,能生成高度富有表现力的语音,包括非语音音效:笑声、叹息、音乐和音效。

理念:不仅是语音——完整的音频生成。

Kokoro

Kokoro 是一个轻量、快速的 TTS 模型,针对英语进行了优化。尽管体积小(约 82M 参数),但提供了出乎意料的高质量。

理念:小模型,大质量,可在任何地方运行。

Fish Speech

Fish Audio 的 Fish Speech 是面向生产环境的 TTS,能从短片段进行出色的语音克隆。它使用新颖的编码器 + 语言模型架构。

理念:生产级质量,快速推理,出色的克隆能力。

MeloTTS

MyShell 的 MeloTTS 是超快速、多口音的 TTS,针对实时应用进行了优化。它在 CPU 上运行高效,并支持多种英语口音和亚洲语言。

理念:在任何规模上实现实时速度。


质量比较

自然度评分(MOS — 主观平均分,1-5)

circle-info

MOS 分数是基于已发表论文和社区评估的近似值。实际质量在很大程度上取决于文本内容和语音配置。

模型
英语 MOS
多语言 MOS
表现力

XTTS v2

4.3

4.1

⭐⭐⭐⭐⭐

Bark

3.9

3.7

⭐⭐⭐⭐⭐(独特)

Kokoro

4.2

不适用(仅限英语)

⭐⭐⭐

Fish Speech

4.4

4.2

⭐⭐⭐⭐

MeloTTS

3.8

3.6

⭐⭐

每个模型的最佳用途

模型
突出的质量特征

XTTS v2

近乎完美的语音克隆,情感表现范围

Bark

非语音音效、笑声、音乐、特效

Kokoro

最佳的质量与模型大小比,自然节奏感

Fish Speech

整体自然度与克隆准确性最佳

MeloTTS

针对长文本的一致、干净输出


速度基准

每秒字符数(CPU vs GPU)

测试:"The quick brown fox jumps over the lazy dog. How are you today?"(60 字符)

模型
CPU 速度
GPU 速度(RTX 3080)
实时因子

XTTS v2

≈15 字符/秒

≈150 字符/秒

0.3×(GPU)

Bark

≈5 字符/秒

≈40 字符/秒

0.1×(GPU)

Kokoro

≈200 字符/秒

≈800 字符/秒

5×(GPU)

Fish Speech

≈80 字符/秒

≈500 字符/秒

3×(GPU)

MeloTTS

≈500 字符/秒

≈2000 字符/秒

12×(GPU)

实时因子 > 1.0 表示比回放速度更快

生成 1 分钟音频所需时间

模型
CPU
RTX 3080
A100

XTTS v2

≈8 分钟

≈30 秒

≈10 秒

Bark

≈20 分钟

≈3 分钟

≈45 秒

Kokoro

≈20 秒

≈5 秒

≈2 秒

Fish Speech

≈45 秒

≈8 秒

≈3 秒

MeloTTS

≈8 秒

≈2 秒

<1 秒

circle-check

语言支持

支持语言

模型
语言
值得注意的

XTTS v2

17

EN、ES、FR、DE、IT、PT、PL、TR、RU、NL、CS、AR、ZH、JA、HU、KO、HI

Bark

10+

EN、ZH、FR、DE、HI、IT、JA、KO、PL、PT、RU、ES、TR

Kokoro

2

英语(美/英)、日语(有限)

Fish Speech

8

EN、ZH、JA、KO、FR、DE、AR、ES

MeloTTS

8

EN(4 种口音)、ES、FR、ZH、JA、KO

语言质量说明

模型
英语
中文
日文
欧洲语言

XTTS v2

适合照片级写实

快速

快速

适合照片级写实

Bark

快速

一般

一般

快速

Kokoro

适合照片级写实

有限

Fish Speech

适合照片级写实

最佳选择

快速

快速

MeloTTS

快速

快速

快速

快速

circle-info

针对中文 TTS:Fish Speech 和 MeloTTS 是最佳的开源选项。两者都能自然处理声调和字符。

针对多语言应用:XTTS v2 支持最多的语言,并在所有语言上保持一致的质量。


语音克隆对比

克隆能力

模型
参考长度
克隆质量
零样本

XTTS v2

3 秒

⭐⭐⭐⭐⭐

Bark

仅语音预设

⭐⭐⭐

部分支持

Kokoro

不支持

Fish Speech

10 秒

⭐⭐⭐⭐⭐

MeloTTS

不支持

XTTS v2 语音克隆

Fish Speech 语音克隆

Bark 语音预设


XTTS v2:深入解析

架构

  • VITS + GPT 混合架构

  • 在 17 种语言上训练超过 16K 小时

  • 零样本克隆最低需 3 秒

在 Clore.ai 上的安装

Docker 部署

弱点:CPML 许可证(非商业需获许可),比 Kokoro/MeloTTS 更慢


Bark:深入解析

架构

  • 类 GPT 的变换器 用于音频令牌生成

  • 三阶段流程:文本 → 语义 → 粗粒度 → 细粒度令牌

  • 生成实际的音频编码器令牌(EnCodec)

使 Bark 独特的点

Bark 是唯一原生生成以下内容的开源 TTS:

  • 🎵 在语音中加入背景音乐

  • 😂 笑声、叹息、清嗓音

  • 🎭 在一次生成中包含多位说话人

  • 🌍 混合语言的语句

标记语言

安装

弱点:慢(3 阶段流水线)、运行间表现不一致、不支持真正的语音克隆


Kokoro:深入解析

架构

  • 82M 参数 基于 StyleTTS2 的模型

  • 极小但质量令人惊讶地高

  • 在 CPU 和 GPU 上都能快速推理

可用语音

流式支持

弱点:主要仅限英语,不支持语音克隆,表现力有限


Fish Speech:深入解析

架构

  • VQGAN + 语言模型 架构

  • 在 700K+ 小时音频上训练

  • 强大的多语言能力,支持亚洲语言

安装

Python API

语音克隆

弱点:CC BY-NC-SA 许可(非商业),为获得最佳质量需较高显存


MeloTTS:深入解析

架构

  • 基于 VITS2 架构

  • 多口音英语训练

  • 为推理速度进行了极度优化

口音与语言

批处理(非常快)

弱点:不支持语音克隆,高速时听感机械化,表现力有限


在 Clore.ai 上部署

一体化 TTS 服务器

显存需求汇总

模型
CPU
4GB GPU
8GB GPU
16GB GPU

XTTS v2

较慢

Bark

非常慢

Kokoro

通用使用

Fish Speech

高细节

MeloTTS

非常快


集成示例

兼容 OpenAI 的 API(用于替换)

LangChain 集成


何时使用哪个

决策指南

按应用类型

应用
最佳选择
为什么

有声书生成

XTTS v2

自然、一致的声音

实时聊天机器人

MeloTTS 或 Kokoro

最快的推理速度

播客自动化

XTTS v2 或 Fish Speech

最佳克隆

游戏角色

Bark

富有表现力、多样的声音

客户服务

MeloTTS

可扩展、快速

无障碍工具

Kokoro

轻量、免费

配音

Fish Speech

最佳克隆质量

长篇叙述

XTTS v2

一致的质量


许可摘要

circle-exclamation
模型
许可
商业用途?
说明

XTTS v2

Coqui 公共模型许可证

❌ 免费

商业使用需要许可

Bark

MIT

对所有用途免费

Kokoro

Apache 2.0

对所有用途免费

Fish Speech

CC BY-NC-SA 4.0

仅限非商业

MeloTTS

MIT

对所有用途免费

完全开放供商业使用:Bark、Kokoro、MeloTTS


在 Clore.ai 上的成本


有用的链接


总结

模型
使用场景

XTTS v2

最佳语音克隆(3 秒参考),17 种语言,非商业

Bark

富有表现力、笑声/特效、MIT 许可证

Kokoro

快速、高质量英语、Apache 许可证

Fish Speech

最佳中日韩,生产级克隆,非商业

MeloTTS

最快,实时,多口音英语,MIT 许可证

对于大多数生产级 Clore.ai 部署:

  • 实时语音应用 → MeloTTS 或 Kokoro(免费、快速、MIT)

  • 语音克隆服务 → XTTS v2 或 Fish Speech(检查许可)

  • 富有表现力的叙述 → Bark 或 XTTS v2


Clore.ai 的 GPU 建议

在 Clore.ai 上的预估费用
开发/测试
RTX 3090(24GB)

~$0.12/每 GPU/每小时

生产

RTX 4090(24GB)

~$0.70/每 GPU/每小时

大规模

A100 80GB

~$1.20/每 GPU/每小时

💡 本指南中的所有示例均可部署在

Clore.ai

GPU 服务器上。浏览可用 GPU 并按小时租用 — 无需承诺,提供完整的 root 访问权限。 Clore.aiarrow-up-right GPU 服务器。浏览可用 GPU 并按小时租用 — 无需承诺,提供完整的 root 访问权限。

最后更新于

这有帮助吗?