MeloTTS

Запустите MeloTTS — качественный многоязычный TTS с быстрой инференцией на GPU Clore.ai

MeloTTS — это высококачественная многоязычная библиотека синтеза речи из текста, разработанная MyShell AI. Она обеспечивает быструю, естественно звучащую синтезированную речь на нескольких языках и с вариантами английских акцентов, предназначена как для исследований, так и для промышленного развертывания. MeloTTS оптимизирована для скорости — она может генерировать речь значительно быстрее реального времени даже на CPU — при этом поддерживая высокое качество звука, подходящее для коммерческого использования.

В настоящее время MeloTTS поддерживает:

  • Английский (американский, британский, индийский, австралийский, по умолчанию)

  • Китайский (упрощённый и смешанный китайско-английский)

  • Японский

  • Корейский

  • Испанский

  • Французский

Ключевые особенности:

  • Быстрая инференция — быстрее реального времени на CPU, молниеносно на GPU

  • 🌍 Многоязычность — 6 языков с вариантами акцентов для английского

  • 🐳 Готово для Docker — доступен официальный образ Docker

  • 🔌 REST API — HTTP API для интеграции в любое приложение

  • 📱 Промышленного уровня — используется в потребительских продуктах MyShell

circle-check

Требования к серверу

Параметр
Минимум
Рекомендуется

GPU

NVIDIA GTX 1080 (8 ГБ)

NVIDIA RTX 3090 (24 ГБ)

VRAM

4 ГБ

8–16 ГБ

ОЗУ

8 ГБ

16 ГБ

CPU

4 ядра

8 ядер

Диск

10 ГБ

20 ГБ

ОС

Ubuntu 20.04+

Ubuntu 22.04

CUDA

11.7+ (опционально)

12.1+

Python

3.8+

3.10

Порты

22, 8888

22, 8888

circle-info

MeloTTS уникально эффективна — она хорошо работает на CPU для единичных запросов и получает значительную выгоду от GPU при пакетной обработке. Даже бюджетная GPU значительно удваивает пропускную способность.


Быстрое развертывание на CLORE.AI

circle-exclamation

1. Найдите подходящий сервер

Перейдите на CLORE.AI Маркетплейсarrow-up-right и отфильтруйте по:

  • VRAM: ≥ 4 ГБ (или только CPU для низкой нагрузки)

  • GPU: Любая NVIDIA GPU (GTX 1080+, серия RTX, A100)

  • Диск: ≥ 10 ГБ

2. Настройте ваше развёртывание

Docker-образ:

Проброс портов:

Переменные окружения:

Команда запуска (выполнить после SSH-подключения к серверу):

3. Доступ к API

Тест с:


Пошаговая настройка

Шаг 1: Подключитесь по SSH к вашему серверу

Шаг 2: Собрать и запустить контейнер

Поскольку у MeloTTS нет предсобранного образа на Docker Hub, используйте базовый образ NVIDIA CUDA и установите MeloTTS из исходников:

Альтернативно, соберите пользовательский образ Docker из исходников:

Шаг 3: Проверьте, что сервис запущен

Шаг 4: Альтернатива — интерфейс Jupyter Notebook

Доступ по адресу: http://<server-ip>:8888

Шаг 5: Установка через pip (без Docker)


Примеры использования

Пример 1: Базовый английский TTS (Python)


Пример 2: Многоязычный TTS


Пример 3: Использование REST API


Пример 4: Высокоскоростная пакетная обработка


Пример 5: Смешанный китайско-английский TTS


Конфигурация

Настройка Docker Compose

Поскольку у MeloTTS нет официального образа на Docker Hub, используйте базовый образ NVIDIA CUDA и установите MeloTTS из исходников при запуске:

Параметры конфигурации API

Параметр
По умолчанию
Описание

--host

127.0.0.1

Привязка адреса (используйте 0.0.0.0 для публичного доступа)

--port

8888

Порт сервера API

--workers

1

Количество рабочих процессов

--device

auto

cuda, cpu, или auto

Поддерживаемые языки и дикторы

Язык
Код
Идентификаторы дикторов

Английский

EN

EN-Default, EN-US, EN-GB, EN-India, EN-Australia, EN-Brazil

Китайский

ZH

ZH

Японский

JP

JP

Корейский

KR

KR

Испанский

SP

SP

Французский

FR

FR


Советы по производительности

1. Сравнение GPU и CPU (бенчмарк)

Производительность MeloTTS (RTF = коэффициент реального времени, меньше — лучше):

Устройство
RTF
Примечания

CPU (8 ядер)

~0.3x

Быстро, отлично для низкой нагрузки

RTX 3080

~0.05x

20× быстрее реального времени

RTX 4090

~0.02x

50× быстрее реального времени

A100

~0.01x

100× быстрее реального времени

2. Оптимизация пропускной способности

3. Прогрев модели

4. Настройка качества аудио против скорости

5. Эффективность использования памяти


Устранение неполадок

Проблема: espeak-ng не найден

Проблема: отсутствуют данные NLTK

Проблема: порт 8888 конфликтует с Jupyter

По умолчанию MeloTTS использует порт 8888, который конфликтует с Jupyter Notebook. Решения:

Проблема: китайский текст отображается некорректно

Проблема: ошибка при загрузке образа Docker

Проблема: медленная инференция на GPU


Рекомендации Clore.ai по GPU

MeloTTS лёгкая — она хорошо работает на CPU при низкой нагрузке и масштабируется линейно с вычислительными ресурсами GPU. Вам не нужно дорогое оборудование.

GPU
VRAM
Цена Clore.ai
RTF (коэффициент реального времени)
Вместимость

Только CPU

~$0.02/ч

~0.3×

~3 запр/мин

RTX 3090

24 ГБ

~$0.12/ч

~0.02× (50× реального времени)

~100 запр/мин

RTX 4090

24 ГБ

~$0.70/ч

~0.01× (100× реального времени)

~200 запр/мин

A100 40GB

40 ГБ

~$1.20/ч

~0.005× (200× реального времени)

~400 запр/мин

circle-info

Лучшее соотношение цена/производительность для TTS задач: RTX 3090 при $0.12/час обеспечивает скорость TTS в 50× реального времени. Для производственного API, обслуживающего сотни пользователей, этого более чем достаточно. Инстансы только с CPU ($0.02/час) подходят для разработки и развертываний с низким трафиком.

Рекомендация для продакшена: Для многоязычного TTS API, обслуживающего 10–50 одновременных пользователей, RTX 3090 — оптимальный выбор. Масштабируйтесь горизонтально (несколько экземпляров), а не переходите на дорогую A100 — MeloTTS не получает пропорциональной выгоды от более дорогих GPU.


Ссылки

Последнее обновление

Это было полезно?