Clonage vocal Kani-TTS-2
Exécutez Kani-TTS-2 — un modèle de synthèse vocale ultra-efficace de 400M de paramètres avec clonage vocal sur les GPU Clore.ai
Kani-TTS-2 par nineninesix.ai (publié le 15 février 2026) est un modèle open-source de synthèse vocale de 400M de paramètres qui atteint une synthèse vocale haute fidélité en utilisant seulement 3 Go de VRAM. Construit sur l'architecture LFM2 de LiquidAI avec NVIDIA NanoCodec, il traite l'audio comme un langage — générant une voix naturelle avec clonage vocal zero-shot à partir d'un court extrait audio de référence. À moins de la moitié de la taille des modèles concurrents et avec une fraction de la puissance de calcul, Kani-TTS-2 est parfait pour l'IA conversationnelle en temps réel, la génération de livres audio et le clonage de voix sur du matériel économique.
HuggingFace : nineninesix/kani-tts-2-en GitHub : nineninesix-ai/kani-tts-2 PyPI : kani-tts-2 Licence : Apache 2.0
Principales caractéristiques
400M de paramètres, 3 Go VRAM — fonctionne sur pratiquement n'importe quel GPU moderne, y compris le RTX 3060
Clonage vocal zero-shot — cloner n'importe quelle voix à partir d'un échantillon audio de référence de 3 à 30 secondes
Embeddings de locuteur — représentations de locuteur 128-dim basées sur WavLM pour un contrôle précis de la voix
Jusqu'à 40 secondes d'audio continu — adapté pour des passages plus longs et des dialogues
Temps réel ou plus rapide — RTF ~0.2 sur RTX 5080, en temps réel même sur des GPU à budget limité
Apache 2.0 — entièrement ouvert pour un usage personnel et commercial
Cadre de préentraînement inclus — entraînez votre propre modèle TTS à partir de zéro dans n'importe quelle langue
Comparaison avec d'autres modèles TTS
Kani-TTS-2
400M
3 Go
✅ Zero-shot
Anglais (extensible)
Apache 2.0
Kokoro
82M
2Go
❌ Voix prédéfinies
EN, JP, CN
Apache 2.0
Zonos
400M
8 Go
✅
Multi
Apache 2.0
ChatTTS
300M
4 Go
❌ Graines aléatoires
Chinois, Anglais
AGPL 3.0
Chatterbox
500M
6 Go
✅
Anglais
Apache 2.0
XTTS (Coqui)
467M
6 Go
✅
Multi
MPL 2.0
F5-TTS
335M
4 Go
✅
Multi
CC-BY-NC 4.0
Exigences
GPU
N'importe lequel avec 3 Go de VRAM
RTX 3060 ou mieux
VRAM
3 Go
6 Go
RAM
8 Go
16Go
Disque
2Go
5Go
Python
3.9+
3.11+
CUDA
11.8+
12.0+
Recommandation Clore.ai : Un RTX 3060 (0,15–0,30 $/jour) est plus que suffisant. Même les instances GPU les moins chères sur Clore.ai exécuteront confortablement Kani-TTS-2. Pour le traitement par lot (livres audio, jeux de données), un RTX 4090 (0,5–2 $/jour) offre un excellent débit.
Installation
Démarrage rapide
Trois lignes pour générer de la parole :
Exemples d'utilisation
1. Synthèse vocale basique
2. Clonage vocal
Cloner n'importe quelle voix à partir d'un court échantillon audio de référence :
3. Génération par lots pour livres audio
Générer plusieurs chapitres efficacement :
4. API de streaming compatible OpenAI
Pour des applications en temps réel, utilisez le serveur compatible OpenAI :
Puis utilisez-le avec n'importe quel client TTS OpenAI :
Conseils pour les utilisateurs de Clore.ai
C'est le modèle le moins cher à faire fonctionner — Avec 3 Go de VRAM, Kani-TTS-2 fonctionne sur littéralement n'importe quelle instance GPU sur Clore.ai. Un RTX 3060 à 0,15 $/jour est plus que suffisant pour la TTS en production.
Combinez avec un modèle de langage — Louez une instance GPU et faites tourner à la fois un petit LLM (par ex., Mistral 3 8B) et Kani-TTS-2 simultanément pour un assistant vocal complet. Ils partageront le GPU avec de la marge.
Précalculer les embeddings de locuteur — Extrayez les embeddings de locuteur une fois et enregistrez-les. Cela évite de charger le modèle WavLM embedder à chaque requête.
Utilisez le serveur compatible OpenAI — Le
kani-tts-2-openai-serverfournit un remplacement plug-and-play pour l'API TTS d'OpenAI, facilitant l'intégration avec des applications existantes.Entraînez sur des langues personnalisées — Kani-TTS-2 inclut un cadre complet de préentraînement (kani-tts-2-pretrain). Affinez le modèle sur votre propre jeu de données linguistique — cela ne nécessite que 8× H100 pendant ~6 heures.
Dépannage
ImportError : impossible d'importer LFM2
Installez la bonne version de transformers : pip install -U "transformers==4.56.0"
La qualité audio est faible / robotique
Augmentez température à 0,8–0,9 ; assurez-vous que l'audio de référence pour le clonage soit propre (sans bruit de fond)
Le clonage vocal ne ressemble pas à la référence
Utilisez 5–15 secondes d'audio clair d'un seul locuteur. Évitez la musique ou le bruit de fond dans la référence
CUDA out of memory
Ne devrait pas arriver avec le modèle 3 Go — vérifiez si d'autres processus utilisent la mémoire GPU (nvidia-smi)
L'audio se coupe en milieu de phrase
Kani-TTS-2 prend en charge jusqu'à ~40 secondes. Divisez les textes plus longs en phrases et concaténez les sorties
Lent sur CPU
L'inférence sur GPU est fortement recommandée. Même un GPU basique est 10–50× plus rapide que le CPU
Lectures complémentaires
GitHub — kani-tts-2 — paquet PyPI, documentation d'utilisation, exemples avancés
HuggingFace — kani-tts-2-en — poids du modèle anglais
Cadre de préentraînement — Entraînez votre propre modèle TTS à partir de zéro
Serveur compatible OpenAI — Remplacement plug-and-play pour l'API TTS d'OpenAI
Modèle d'embedding de locuteur — Embedder vocal basé sur WavLM
Aperçu MarkTechPost — Couverture communautaire
Mis à jour
Ce contenu vous a-t-il été utile ?