Fish Speech

Запустите Fish Speech многоязычный TTS и клонирование голоса в zero-shot на GPU Clore.ai

Fish Speech — это передовая многоязычная система синтеза речи (TTS) с возможностью клонирования голоса в режиме zero-shot. Имея более 15 000 звёзд на GitHub, она поддерживает английский, китайский, японский, корейский, французский, немецкий, арабский, испанский и другие языки — всё в одной модели. Используя всего 10–15 секунд эталонной аудиозаписи, Fish Speech может клонировать любой голос с впечатляющей точностью, что делает её идеальной для производства аудиокниг, дубляжа, виртуальных ассистентов и масштабного создания контента.

Fish Speech использует архитектуру на основе трансформера с вокодером VQGAN, достигая показателей близкой к человеческой естественности в стандартных бенчмарках TTS. WebUI (Gradio) делает её доступной без написания ни строки кода, а REST API обеспечивает бесшовную интеграцию в производственные пайплайны.

circle-check

Требования к серверу

Параметр
Минимум
Рекомендуется

GPU

NVIDIA RTX 3080 (10 ГБ)

NVIDIA RTX 4090 (24 ГБ)

VRAM

8 ГБ

16–24 ГБ

ОЗУ

16 ГБ

32 ГБ

CPU

4 ядра

8+ ядер

Диск

20 ГБ

40 ГБ

ОС

Ubuntu 20.04+

Ubuntu 22.04

CUDA

11.8+

12.1+

Порты

22, 7860

22, 7860

circle-info

Fish Speech эффективно работает на GPU среднего уровня (RTX 3080/3090). Для пакетного вывода или обслуживания нескольких одновременных пользователей рекомендуется RTX 4090 или A100.


Быстрое развертывание на CLORE.AI

Самый быстрый способ запустить Fish Speech — использовать официальный Docker-образ напрямую с Docker Hub.

1. Найдите подходящий сервер

Перейдите на CLORE.AI Маркетплейсarrow-up-right и отфильтруйте по:

  • VRAM: ≥ 8 ГБ

  • GPU: RTX 3080, 3090, 4080, 4090, A100, H100

  • Диск: ≥ 20 ГБ

2. Настройте ваше развёртывание

В форме заказа CLORE.AI укажите следующее:

Docker-образ:

Проброс портов:

Переменные окружения:

Команда запуска (необязательно — автоматически запускает WebUI):

3. Доступ к интерфейсу

После развертывания откройте браузер и перейдите по адресу:

Gradio WebUI загрузится с полным интерфейсом Fish Speech, готовым к использованию.


Пошаговая настройка

Шаг 1: Подключитесь по SSH к вашему серверу

Шаг 2: Скачать и запустить Docker-контейнер

Шаг 3: Проверить доступ к GPU

Вы должны увидеть указанный GPU с доступной видеопамятью (VRAM).

Шаг 4: Проверить загрузку модели

Fish Speech автоматически скачивает веса модели при первом запуске (~3–5 ГБ). Отслеживайте прогресс:

Подождите, пока не увидите:

Шаг 5: Доступ к WebUI

Перейдите по адресу http://<server-ip>:7860 в вашем браузере.

Шаг 6: (Необязательно) Включить API-сервер


Примеры использования

Пример 1: Базовый синтез речи через WebUI

  1. Откройте WebUI по адресу http://<server-ip>:7860

  2. Введите текст в поле "Text" поле:

  3. Выберите язык: Английский

  4. Нажмите "Generate"

  5. Скачайте полученный .wav файл


Пример 2: Клонирование голоса в режиме Zero-Shot

Клонируйте любой голос, используя всего 10–15 секунд эталонного аудио:

  1. В WebUI перейдите в раздел "Voice Clone" вкладку

  2. Загрузите ваш эталонный аудиофайл (.wav или .mp3, 10–30 секунд)

  3. Введите расшифровку (транскрипт) эталонного аудио (необязательно, но улучшает качество)

  4. Введите целевой текст для синтеза

  5. Нажмите "Clone & Generate"

Модель проанализирует характеристики голоса и синтезирует речь этим голосом.


Пример 3: TTS через API (Python)


Пример 4: Многоязычный TTS


Пример 5: Пакетная обработка аудиофайлов


Конфигурация

Docker Compose (Production Setup)

Ключевые параметры конфигурации

Опция
По умолчанию
Описание

--listen

0.0.0.0

Интерфейс, к которому привязывается сервер

--port

7860

Порт для Gradio WebUI

--compile

false

Включить torch.compile для более быстрого вывода

--device

cuda

Устройство для использования (cuda, cpu, mps)

--half

true

Использовать половинную точность FP16 (экономит VRAM)

--num_samples

1

Количество генерируемых аудиосэмплов

--max_new_tokens

1024

Максимальное число новых токенов для генерации

Варианты модели

Модель
Размер
Языки
Примечания

fish-speech-1.4

~3 ГБ

8 языков

Последний стабильный релиз

fish-speech-1.2-sft

~2.5 ГБ

8 языков

Вариант с дообучением (fine-tuned)

fish-speech-1.2

~2.5 ГБ

8 языков

Базовая модель


Советы по производительности

1. Включите torch.compile для более быстрого вывода

Первый запуск будет медленнее (компиляция занимает 2–5 минут), но последующий вывод будет на 20–40% быстрее.

2. Используйте половинную точность (FP16)

FP16 снижает использование VRAM примерно на 50% с минимальной потерей качества:

3. Предзагрузка эталонных голосов

Храните часто используемые эталонные голоса в директории references контейнера, чтобы избежать повторной обработки:

4. Оптимизация использования памяти GPU

5. Настройка размера батча

Для пакетных API-запросов оптимальные размеры батчей:

  • RTX 3080 (10 ГБ): batch_size = 1–2

  • RTX 3090/4090 (24 ГБ): batch_size = 4–8

  • A100 (40/80 ГБ): batch_size = 16–32


Устранение неполадок

Проблема: Контейнер не запускается — CUDA не найдена

Проблема: Ошибка нехватки памяти (OOM)

Проблема: Порт 7860 недоступен

Проблема: Скачивание модели не удаётся / медленно

Проблема: Плохое качество аудио

  • Убедитесь, что эталонное аудио чистое (без фонового шума, частота дискретизации 16 кГц и выше)

  • Держите эталонное аудио в диапазоне 10–30 секунд

  • Предоставьте транскрипт эталонного аудио для лучшего выравнивания

  • Попробуйте увеличить --num_samples чтобы сгенерировать несколько вариантов и выбрать лучший

Проблема: WebUI грузится, но генерация зависает


Ссылки


Рекомендации Clore.ai по GPU

Сценарий использования
Рекомендуемый GPU
Примерная стоимость на Clore.ai

Разработка/Тестирование

RTX 3090 (24GB)

~$0.12/gpu/hr

Производственный TTS

RTX 4090 (24GB)

~$0.70/gpu/hr

Высокопроизводительный вывод

A100 80GB

~$1.20/gpu/hr

💡 Все примеры в этом руководстве можно развернуть на Clore.aiarrow-up-right GPU-серверах. Просматривайте доступные GPU и арендуйте по часам — без обязательств, с полным root-доступом.

Последнее обновление

Это было полезно?