Kani-TTS-2 клонирование голоса

Запустите Kani-TTS-2 — ультраэффективную модель text-to-speech с 400M параметров и клонированием голоса на GPU Clore.ai

Kani-TTS-2 от nineninesix.ai (выпущен 15 февраля 2026 г.) — это открытая модель синтеза речи с 400 миллионами параметров, достигающая высококачественной генерации речи, используя всего 3 ГБ видеопамяти. Построенная на архитектуре LFM2 от LiquidAI с NVIDIA NanoCodec, она рассматривает аудио как язык — генерируя естественно звучащую речь с нулевой настройкой голоса по короткому эталонному аудиоклипу. При размере менее половины конкурирующих моделей и с долей вычислительных затрат, Kani-TTS-2 идеально подходит для разговорного ИИ в реальном времени, генерации аудиокниг и клонирования голоса на бюджетном оборудовании.

HuggingFace: nineninesix/kani-tts-2-enarrow-up-right GitHub: nineninesix-ai/kani-tts-2arrow-up-right PyPI: kani-tts-2arrow-up-right Лицензия: Apache 2.0

Ключевые особенности

  • 400M параметров, 3 ГБ VRAM — работает практически на любой современной GPU, включая RTX 3060

  • Клонирование голоса в нулевой настройке — клонируйте любой голос по референсному аудиосэмплу длительностью 3–30 секунд

  • Эмбеддинги говорящего — 128-мерные представления говорящего на базе WavLM для точного управления голосом

  • До 40 секунд непрерывного аудио — подходит для более длинных отрывков и диалогов

  • В реальном времени или быстрее — RTF ~0.2 на RTX 5080, в реальном времени даже на бюджетных GPU

  • Apache 2.0 — полностью открыта для личного и коммерческого использования

  • Включён фреймворк предобучения — обучайте собственную TTS-модель с нуля на любом языке

Сравнение с другими TTS-моделями

Модель
Параметры
Мин. VRAM
Клонирование голоса
Язык
Лицензия

Kani-TTS-2

400M

3GB

✅ Нулевой настройкой

Английский (расширяемый)

Apache 2.0

Kokoro

82M

2GB

❌ Предустановленные голоса

EN, JP, CN

Apache 2.0

Zonos

400M

8GB

Мульти

Apache 2.0

ChatTTS

300M

4 ГБ

❌ Случайные сэмплы

Китайский, английский

AGPL 3.0

Chatterbox

500M

6 ГБ

Английский

Apache 2.0

XTTS (Coqui)

467M

6 ГБ

Мульти

MPL 2.0

F5-TTS

335M

4 ГБ

Мульти

CC-BY-NC 4.0

Требования

Компонент
Минимум
Рекомендуется

GPU

Любой с 3 ГБ VRAM

RTX 3060 или лучше

VRAM

3GB

6 ГБ

ОЗУ

8GB

16GB

Диск

2GB

5 ГБ

Python

3.9+

3.11+

CUDA

11.8+

12.0+

Рекомендация Clore.ai: RTX 3060 (($0.15–0.30/день) более чем достаточно. Даже самые дешёвые GPU-инстансы на Clore.ai с лёгкостью запустят Kani-TTS-2. Для пакетной обработки (аудиокниги, датасеты) RTX 4090 ($0.5–2/день) обеспечивает отличную пропускную способность.

Установка

Быстрый старт

Три строки для генерации речи:

Примеры использования

1. Базовый текст-в-речь

2. Клонирование голоса

Клонируйте любой голос по короткому эталонному аудиосэмплу:

3. Пакетная генерация для аудиокниг

Эффективно генерируйте несколько глав:

4. Совместимый с OpenAI потоковый API

Для приложений в реальном времени используйте сервер, совместимый с OpenAI:

Затем используйте его с любым клиентом TTS, совместимым с OpenAI:

Советы для пользователей Clore.ai

  1. Это самая дешёвая модель для запуска — При 3 ГБ VRAM Kani-TTS-2 запускается буквально на любом GPU-инстансе на Clore.ai. RTX 3060 по цене $0.15/день более чем достаточен для производственного TTS.

  2. Комбинируйте с языковой моделью — Арендуйте один GPU-инстанс и запустите одновременно небольшой LLM (например, Mistral 3 8B) и Kani-TTS-2 для полноценного голосового ассистента. Они будут совместно использовать GPU с запасом ресурсов.

  3. Предварительно вычисляйте эмбеддинги говорящих — Извлекайте эмбеддинги говорящих один раз и сохраняйте их. Это избегает загрузки модели WavLM-embedder при каждом запросе.

  4. Используйте сервер, совместимый с OpenAI — Репозиторий kani-tts-2-openai-server предоставляет замену «под ключ» для TTS API OpenAI, что упрощает интеграцию с существующими приложениями.

  5. Обучение на пользовательских языках — Kani-TTS-2 включает полный фреймворк предобучения (kani-tts-2-pretrainarrow-up-right). Донастраивайте модель на собственном датасете языка — это займёт всего 8× H100 примерно на ~6 часов.

Устранение неполадок

Проблема
Решение

ImportError: невозможно импортировать LFM2

Установите корректную версию transformers: pip install -U "transformers==4.56.0"

Качество аудио плохое / роботизированное

Увеличьте temperature до 0.8–0.9; убедитесь, что референсное аудио для клонирования чистое (без фонового шума)

Клонирование голоса не похоже на референс

Используйте 5–15 секунд чистого одноголосого аудио. Избегайте музыки или фонового шума в референсе

CUDA — недостаточно памяти

Не должно происходить с моделью на 3 ГБ — проверьте, не используют ли другие процессы память GPU (nvidia-smi)

Аудио обрывается посреди предложения

Kani-TTS-2 поддерживает до ~40 секунд. Разделяйте более длинные тексты на предложения и объединяйте результаты

Медленно на CPU

Рекомендуется вывод на GPU. Даже базовый GPU в 10–50× быстрее CPU

Дополнительное чтение

Последнее обновление

Это было полезно?