Сравнение TTS-движков

Сравните ведущие открытые движки преобразования текста в речь для развертывания на GPU-серверах Clore.ai.

circle-info

Преобразование текста в речь (TTS) преобразует написанный текст в звучащую естественно аудиозапись. Это руководство сравнивает пять ведущих открытых TTS-движков: XTTS v2, Bark, Kokoro, Fish Speech и MeloTTS — охватывая качество, скорость, поддержку языков и возможности клонирования голоса.


Краткая матрица принятия решений

XTTS v2
Bark
Kokoro
Fish Speech
MeloTTS

Разработчик

Coqui AI

Suno AI

Hexgrad

Fish Audio

MyShell AI

Качество

⭐⭐⭐⭐⭐

⭐⭐⭐⭐

⭐⭐⭐⭐

⭐⭐⭐⭐⭐

⭐⭐⭐

Скорость

Средне

Медленно

Быстро

Быстро

Самый быстрый

Клонирование голоса

✅ (фрагмент 3 с)

✅ (пресеты голоса)

✅ (ограниченно)

✅ (фрагмент 10 с)

Языки

17

10+

Английский

8+

8

Мин. VRAM

4 ГБ

8 ГБ

Подходит для CPU

4 ГБ

Подходит для CPU

Лицензия

CPML (некоммерческое)

MIT

Apache 2.0

CC BY-NC-SA

MIT

Звезды на GitHub

35K+ (Coqui TTS)

38K+

12K+

14K+

15K+


Обзор

XTTS v2

XTTS v2 от Coqui — эталон открытого клонирования голоса в TTS. Он может клонировать любой голос по 3-секундному аудиофрагменту с исключительной точностью.

Философия: Максимальная выразительность и качество клонирования голоса.

Bark

Bark от Suno — это TTS-модель на основе трансформера, генерирующая крайне выразительную речь, включая несрочные звуки: смех, вздохи, музыку и звуковые эффекты.

Философия: Не только речь — полная генерация аудио.

Kokoro

Kokoro — лёгкая, быстрая TTS-модель, оптимизированная для английского. Несмотря на небольшой размер (~82M параметров), она обеспечивает удивительно высокое качество.

Философия: Маленькая модель, большое качество, работает где угодно.

Fish Speech

Fish Speech от Fish Audio — TTS производственного уровня с исключительным клонированием голоса по коротким фрагментам. Использует новую архитектуру кодека + языковой модели.

Философия: Качество производства, быстрая генерация, отличное клонирование.

MeloTTS

MeloTTS от MyShell — ультрабыстрый мультиакцентный TTS, оптимизированный для приложений в реальном времени. Эффективно работает на CPU и поддерживает несколько англоязычных акцентов и азиатские языки.

Философия: Скорость в реальном времени на любом масштабе.


Сравнение качества

Оценки естественности (MOS — Mean Opinion Score, 1-5)

circle-info

Значения MOS являются приблизительными и основаны на опубликованных статьях и оценках сообщества. Фактическое качество сильно зависит от содержания текста и конфигурации голоса.

Модель
MOS для английского
MOS для многоязычных моделей
Выразительность

XTTS v2

4.3

4.1

⭐⭐⭐⭐⭐

Bark

3.9

3.7

⭐⭐⭐⭐⭐ (уникально)

Kokoro

4.2

Н/Д (только EN)

⭐⭐⭐

Fish Speech

4.4

4.2

⭐⭐⭐⭐

MeloTTS

3.8

3.6

⭐⭐

Что каждая модель выполняет лучше всего

Модель
Выделяющаяся особенность качества

XTTS v2

Почти идеальное клонирование голоса, эмоциональный диапазон

Bark

Несрочные звуки, смех, музыка, эффекты

Kokoro

Лучшее соотношение качества и размера, естественный ритм

Fish Speech

Лучшее общее ощущение естественности + точность клонирования

MeloTTS

Последовательный, чистый вывод для длинных текстов


Бенчмарки скорости

Символов в секунду (CPU vs GPU)

Тест: "The quick brown fox jumps over the lazy dog. How are you today?" (60 символов)

Модель
Скорость на CPU
Скорость на GPU (RTX 3080)
Фактор реального времени

XTTS v2

~15 символов/с

~150 символов/с

0.3× (GPU)

Bark

~5 символов/с

~40 символов/с

0.1× (GPU)

Kokoro

~200 символов/с

~800 символов/с

5× (GPU)

Fish Speech

~80 символов/с

~500 символов/с

3× (GPU)

MeloTTS

~500 символов/с

~2000 символов/с

12× (GPU)

Фактор реального времени > 1.0 означает быстрее скорости воспроизведения

Время генерации 1 минуты аудио

Модель
CPU
RTX 3080
A100

XTTS v2

~8 мин

~30 с

~10 с

Bark

~20 мин

~3 мин

~45 с

Kokoro

~20 с

~5 с

~2 с

Fish Speech

~45 с

~8 с

~3 с

MeloTTS

~8 с

~2 с

<1 с

circle-check

Поддержка языков

Поддерживаемые языки

Модель
Языки
Примечательно

XTTS v2

17

EN, ES, FR, DE, IT, PT, PL, TR, RU, NL, CS, AR, ZH, JA, HU, KO, HI

Bark

10+

EN, ZH, FR, DE, HI, IT, JA, KO, PL, PT, RU, ES, TR

Kokoro

2

Английский (US/UK), японский (ограниченно)

Fish Speech

8

EN, ZH, JA, KO, FR, DE, AR, ES

MeloTTS

8

EN (4 акцента), ES, FR, ZH, JA, KO

Примечания по качеству языка

Модель
Английский
Китайский
Японский
Европейский

XTTS v2

Отлично

Хорошо

Хорошо

Отлично

Bark

Хорошо

Удовлетворительно

Удовлетворительно

Хорошо

Kokoro

Отлично

Ограничено

Fish Speech

Отлично

Лучший выбор

Хорошо

Хорошо

MeloTTS

Хорошо

Хорошо

Хорошо

Хорошо

circle-info

Для китайского TTS: Fish Speech и MeloTTS — лучшие открытые варианты. Обе модели естественно обрабатывают тоны и иероглифы.

Для многоязычных приложений: XTTS v2 поддерживает наибольшее количество языков с последовательным качеством во всех из них.


Сравнение клонирования голоса

Возможности клонирования

Модель
Длина референса
Качество клонирования
Zero-shot

XTTS v2

3 секунды

⭐⭐⭐⭐⭐

Bark

Только пресеты голоса

⭐⭐⭐

Частично

Kokoro

Не поддерживается

Fish Speech

10 секунд

⭐⭐⭐⭐⭐

MeloTTS

Не поддерживается

Клонирование голоса XTTS v2

Клонирование голоса Fish Speech

Пресеты голосов Bark


XTTS v2: Подробно

Архитектура

  • VITS + GPT гибридная архитектура

  • Обучена на 16K+ часах по 17 языкам

  • Минимум 3 секунды для zero-shot клонирования

Установка на Clore.ai

Развёртывание в Docker

Слабые стороны: Лицензия CPML (некоммерческая без разрешения), медленнее, чем Kokoro/MeloTTS


Bark: Подробно

Архитектура

  • Трансформер в стиле GPT для генерации аудиотокенов

  • Трёхэтапный процесс: текст → семантика → грубые → тонкие токены

  • Генерирует реальные аудиокодек-токены (EnCodec)

Что делает Bark уникальным

Bark — единственный открытый TTS, который нативно генерирует:

  • 🎵 Фоновую музыку внутри речи

  • 😂 Смех, вздохи, прочищание горла

  • 🎭 Несколько говорящих в одной генерации

  • 🌍 Выступления на смешанных языках

Язык разметки

Установка

Слабые стороны: Медленно (трёхступенчатый конвейер), непоследовательно между запусками, нет истинного клонирования голоса


Kokoro: Подробно

Архитектура

  • 82M параметров Модель на основе StyleTTS2

  • Чрезвычайно малая, но с удивительно высоким качеством

  • Быстрая генерация на CPU и GPU

Доступные голоса

Поддержка стриминга

Слабые стороны: Только английский (в основном), нет клонирования голоса, ограниченная выразительность


Fish Speech: Подробно

Архитектура

  • VQGAN + языковая модель архитектура

  • Обучена на 700K+ часах аудио

  • Сильная многоязычность с поддержкой азиатских языков

Установка

Python API

Клонирование голоса

Слабые стороны: Лицензия CC BY-NC-SA (некоммерческая), требуется больше VRAM для лучшего качества


MeloTTS: Подробно

Архитектура

  • Основано на VITS2 архитектура

  • Обучение на английских акцентах

  • Сильно оптимизировано для скорости вывода

Акценты и языки

Пакетная обработка (очень быстро)

Слабые стороны: Нет клонирования голоса, роботизированный звук на высокой скорости, ограниченная выразительность


Развертывание на Clore.ai

Универсальный TTS-сервер

Краткое резюме требований VRAM

Модель
CPU
GPU 4GB
GPU 8GB
GPU 16GB

XTTS v2

Медленно

Bark

Очень медленно

Kokoro

Быстро

Fish Speech

Средне

MeloTTS

Очень быстро


Примеры интеграции

OpenAI-совместимое API (для замены без изменений)

Интеграция с LangChain


Когда что использовать

Руководство по принятию решений

По типу приложения

Приложение
Лучший выбор
Почему

Генерация аудиокниг

XTTS v2

Натуральный, согласованный голос

Чатбот в реальном времени

MeloTTS или Kokoro

Самая быстрая инференция

Автоматизация подкастов

XTTS v2 или Fish Speech

Лучшее клонирование

Персонажи игр

Bark

Экспрессивные, разнообразные голоса

Служба поддержки клиентов

MeloTTS

Масштабируемо, быстро

Инструменты доступности

Kokoro

Легковесно, бесплатно

Даббинг голоса

Fish Speech

Лучшее качество клонирования

Длинное повествование

XTTS v2

Постоянное качество


Краткое изложение лицензий

circle-exclamation
Модель
Лицензия
Коммерческое?
Примечания

XTTS v2

Coqui Public Model License

❌ Бесплатно

Требуется лицензия для коммерческого использования

Bark

MIT

Бесплатно для любого использования

Kokoro

Apache 2.0

Бесплатно для любого использования

Fish Speech

CC BY-NC-SA 4.0

Только некоммерческое использование

MeloTTS

MIT

Бесплатно для любого использования

Полностью открыто для коммерческого использования: Bark, Kokoro, MeloTTS


Стоимость на Clore.ai


Полезные ссылки


Резюме

Модель
Использовать когда

XTTS v2

Лучшее голосовое клонирование (реф 3 с), 17 языков, некоммерческое

Bark

Экспрессивный, смех/эффекты, лицензия MIT

Kokoro

Быстрый, качественный английский, лицензия Apache

Fish Speech

Лучшее для CJK, клонирование для продакшена, некоммерческое

MeloTTS

Самый быстрый, в реальном времени, английский с разными акцентами, лицензия MIT

Для большинства продакшен-развёртываний на Clore.ai:

  • Приложения с голосом в реальном времени → MeloTTS или Kokoro (бесплатно, быстро, MIT)

  • Сервис клонирования голоса → XTTS v2 или Fish Speech (проверьте лицензирование)

  • Экспрессивное повествование → Bark или XTTS v2


Рекомендации Clore.ai по GPU

Сценарий использования
Рекомендуемый GPU
Примерная стоимость на Clore.ai

Разработка/Тестирование

RTX 3090 (24GB)

~$0.12/gpu/hr

Продакшн

RTX 4090 (24GB)

~$0.70/gpu/hr

Крупномасштабно

A100 80GB

~$1.20/gpu/hr

💡 Все примеры в этом руководстве можно развернуть на Clore.aiarrow-up-right GPU-серверах. Просматривайте доступные GPU и арендуйте по часам — без обязательств, с полным root-доступом.

Последнее обновление

Это было полезно?