Клонирование голоса Zonos TTS

Запускайте Zonos TTS от Zyphra для клонирования голоса с управлением эмоцией и тоном на GPU Clore.ai.

Zonos от Zyphraarrow-up-right — это 0.4B-параметрическая модель текст-в-речь с открытыми весами, обученная на более чем 200 тыс. часов многоязычной речи. Она выполняет нулевое клонирование голоса по всего 2–30 секундам эталонного аудио и предоставляет тонкую настройку эмоций, скорости речи, вариации тона и качества аудио. Выходной звук — высококачественное аудио 44 кГц. Доступны два варианта модели: Transformer (лучшее качество) и Hybrid/Mamba (быстрее при инференсе).

GitHub: Zyphra/Zonosarrow-up-right HuggingFace: Zyphra/Zonos-v0.1-transformerarrow-up-right Лицензия: Apache 2.0

Ключевые особенности

  • Клонирование голоса по 2–30 секундам — тонкой дообучения не требуется

  • Выход 44 кГц высокого качества — студийное качество звука

  • Управление эмоциями — радость, печаль, гнев, страх, удивление, отвращение через 8D-вектор

  • Скорость речи и тон — независимый тонконастраиваемый контроль

  • Входные аудио-префиксы — позволяет имитировать шёпот и другие трудноклонируемые поведения

  • Мультиязычность — английский, японский, китайский, французский, немецкий

  • Две архитектуры — Transformer (качество) и Hybrid/Mamba (скорость, ~2× реального времени на RTX 4090)

  • Apache 2.0 — бесплатно для личного и коммерческого использования

Требования

Компонент
Минимум
Рекомендуется

GPU

RTX 3080 10 ГБ

RTX 4090 24 ГБ

VRAM

6 ГБ (Transformer)

10 ГБ+

ОЗУ

16 ГБ

32 ГБ

Диск

10 ГБ

20 ГБ

Python

3.10+

3.11

CUDA

11.8+

12.4

Система

espeak-ng

Рекомендация Clore.ai: RTX 3090 ($0.30–1.00/день) для комфортного запаса. RTX 4090 ($0.50–2.00/день) для модели Hybrid и максимально быстрого инференса.

Установка

Быстрый старт

Примеры использования

Управление эмоциями

Zonos принимает 8-мерный вектор эмоций: [радость, печаль, отвращение, страх, удивление, гнев, другое, нейтральный].

Управление скоростью речи и тоном

Веб-интерфейс Gradio

Открыть порт 7860/http в вашем заказе Clore.ai и открыть http_pub URL для доступа к интерфейсу.

Советы для пользователей Clore.ai

  • Выбор модели — Transformer для лучшего качества, Hybrid для примерно в 2× более быстрого инференса (требуется GPU серии RTX 3000+)

  • Эталонное аудио — 10–30 секунд чистой речи дают лучшие результаты; более короткие клипы (2–5 с) работают, но с меньшей точностью

  • Настройка Docker — используйте pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime, добавьте apt-get install -y espeak-ng в автозагрузку

  • Проброс портов — откройте 7860/http для интерфейса Gradio, 8000/http для сервера API

  • Контроль сидирования (seed) — установите torch.manual_seed() перед генерацией для воспроизводимого результата

  • Параметр качества аудио — экспериментируйте с полем audio_quality в conditioning для более чистого вывода

Устранение неполадок

Проблема
Решение

espeak-ng не найден

Запустите apt-get install -y espeak-ng (требуется для фонемизации)

CUDA — недостаточно памяти

Используйте модель Transformer (меньше, чем Hybrid); уменьшите длину текста на вызов

Hybrid-модель не запускается

Требуется GPU Ampere+ (серия RTX 3000 или новее) и pip install -e ".[compile]"

Клонированный голос звучит неправильно

Используйте более длинный эталонный фрагмент (15–30 с) с чёткой речью и минимальным фоновым шумом

Медленная генерация

Нормально для Transformer (~0.5× реального времени); Hybrid достигает ~2× реального времени на RTX 4090

ModuleNotFoundError: zonos

Убедитесь, что вы установили из исходников: cd Zonos && pip install -e .

Последнее обновление

Это было полезно?