Kani-TTS-2 клонирование голоса
Запустите Kani-TTS-2 — ультраэффективную модель text-to-speech с 400M параметров и клонированием голоса на GPU Clore.ai
Kani-TTS-2 от nineninesix.ai (выпущен 15 февраля 2026 г.) — это открытая модель синтеза речи с 400 миллионами параметров, достигающая высококачественной генерации речи, используя всего 3 ГБ видеопамяти. Построенная на архитектуре LFM2 от LiquidAI с NVIDIA NanoCodec, она рассматривает аудио как язык — генерируя естественно звучащую речь с нулевой настройкой голоса по короткому эталонному аудиоклипу. При размере менее половины конкурирующих моделей и с долей вычислительных затрат, Kani-TTS-2 идеально подходит для разговорного ИИ в реальном времени, генерации аудиокниг и клонирования голоса на бюджетном оборудовании.
HuggingFace: nineninesix/kani-tts-2-en GitHub: nineninesix-ai/kani-tts-2 PyPI: kani-tts-2 Лицензия: Apache 2.0
Ключевые особенности
400M параметров, 3 ГБ VRAM — работает практически на любой современной GPU, включая RTX 3060
Клонирование голоса в нулевой настройке — клонируйте любой голос по референсному аудиосэмплу длительностью 3–30 секунд
Эмбеддинги говорящего — 128-мерные представления говорящего на базе WavLM для точного управления голосом
До 40 секунд непрерывного аудио — подходит для более длинных отрывков и диалогов
В реальном времени или быстрее — RTF ~0.2 на RTX 5080, в реальном времени даже на бюджетных GPU
Apache 2.0 — полностью открыта для личного и коммерческого использования
Включён фреймворк предобучения — обучайте собственную TTS-модель с нуля на любом языке
Сравнение с другими TTS-моделями
Kani-TTS-2
400M
3GB
✅ Нулевой настройкой
Английский (расширяемый)
Apache 2.0
Kokoro
82M
2GB
❌ Предустановленные голоса
EN, JP, CN
Apache 2.0
Zonos
400M
8GB
✅
Мульти
Apache 2.0
ChatTTS
300M
4 ГБ
❌ Случайные сэмплы
Китайский, английский
AGPL 3.0
Chatterbox
500M
6 ГБ
✅
Английский
Apache 2.0
XTTS (Coqui)
467M
6 ГБ
✅
Мульти
MPL 2.0
F5-TTS
335M
4 ГБ
✅
Мульти
CC-BY-NC 4.0
Требования
GPU
Любой с 3 ГБ VRAM
RTX 3060 или лучше
VRAM
3GB
6 ГБ
ОЗУ
8GB
16GB
Диск
2GB
5 ГБ
Python
3.9+
3.11+
CUDA
11.8+
12.0+
Рекомендация Clore.ai: RTX 3060 (($0.15–0.30/день) более чем достаточно. Даже самые дешёвые GPU-инстансы на Clore.ai с лёгкостью запустят Kani-TTS-2. Для пакетной обработки (аудиокниги, датасеты) RTX 4090 ($0.5–2/день) обеспечивает отличную пропускную способность.
Установка
Быстрый старт
Три строки для генерации речи:
Примеры использования
1. Базовый текст-в-речь
2. Клонирование голоса
Клонируйте любой голос по короткому эталонному аудиосэмплу:
3. Пакетная генерация для аудиокниг
Эффективно генерируйте несколько глав:
4. Совместимый с OpenAI потоковый API
Для приложений в реальном времени используйте сервер, совместимый с OpenAI:
Затем используйте его с любым клиентом TTS, совместимым с OpenAI:
Советы для пользователей Clore.ai
Это самая дешёвая модель для запуска — При 3 ГБ VRAM Kani-TTS-2 запускается буквально на любом GPU-инстансе на Clore.ai. RTX 3060 по цене $0.15/день более чем достаточен для производственного TTS.
Комбинируйте с языковой моделью — Арендуйте один GPU-инстанс и запустите одновременно небольшой LLM (например, Mistral 3 8B) и Kani-TTS-2 для полноценного голосового ассистента. Они будут совместно использовать GPU с запасом ресурсов.
Предварительно вычисляйте эмбеддинги говорящих — Извлекайте эмбеддинги говорящих один раз и сохраняйте их. Это избегает загрузки модели WavLM-embedder при каждом запросе.
Используйте сервер, совместимый с OpenAI — Репозиторий
kani-tts-2-openai-serverпредоставляет замену «под ключ» для TTS API OpenAI, что упрощает интеграцию с существующими приложениями.Обучение на пользовательских языках — Kani-TTS-2 включает полный фреймворк предобучения (kani-tts-2-pretrain). Донастраивайте модель на собственном датасете языка — это займёт всего 8× H100 примерно на ~6 часов.
Устранение неполадок
ImportError: невозможно импортировать LFM2
Установите корректную версию transformers: pip install -U "transformers==4.56.0"
Качество аудио плохое / роботизированное
Увеличьте temperature до 0.8–0.9; убедитесь, что референсное аудио для клонирования чистое (без фонового шума)
Клонирование голоса не похоже на референс
Используйте 5–15 секунд чистого одноголосого аудио. Избегайте музыки или фонового шума в референсе
CUDA — недостаточно памяти
Не должно происходить с моделью на 3 ГБ — проверьте, не используют ли другие процессы память GPU (nvidia-smi)
Аудио обрывается посреди предложения
Kani-TTS-2 поддерживает до ~40 секунд. Разделяйте более длинные тексты на предложения и объединяйте результаты
Медленно на CPU
Рекомендуется вывод на GPU. Даже базовый GPU в 10–50× быстрее CPU
Дополнительное чтение
GitHub — kani-tts-2 — пакет на PyPI, документация по использованию, продвинутые примеры
HuggingFace — kani-tts-2-en — веса английской модели
Фреймворк предобучения — Обучите собственную TTS-модель с нуля
Сервер, совместимый с OpenAI — Замена «под ключ» для TTS API OpenAI
Модель эмбеддинга говорящего — Встроитель голоса на базе WavLM
Обзор MarkTechPost — Освещение в сообществе
Последнее обновление
Это было полезно?