Clonage vocal Kani-TTS-2

Exécutez Kani-TTS-2 — un modèle de synthèse vocale ultra-efficace de 400M de paramètres avec clonage vocal sur les GPU Clore.ai

Kani-TTS-2 par nineninesix.ai (publié le 15 février 2026) est un modèle open-source de synthèse vocale de 400M de paramètres qui atteint une synthèse vocale haute fidélité en utilisant seulement 3 Go de VRAM. Construit sur l'architecture LFM2 de LiquidAI avec NVIDIA NanoCodec, il traite l'audio comme un langage — générant une voix naturelle avec clonage vocal zero-shot à partir d'un court extrait audio de référence. À moins de la moitié de la taille des modèles concurrents et avec une fraction de la puissance de calcul, Kani-TTS-2 est parfait pour l'IA conversationnelle en temps réel, la génération de livres audio et le clonage de voix sur du matériel économique.

HuggingFace : nineninesix/kani-tts-2-enarrow-up-right GitHub : nineninesix-ai/kani-tts-2arrow-up-right PyPI : kani-tts-2arrow-up-right Licence : Apache 2.0

Principales caractéristiques

  • 400M de paramètres, 3 Go VRAM — fonctionne sur pratiquement n'importe quel GPU moderne, y compris le RTX 3060

  • Clonage vocal zero-shot — cloner n'importe quelle voix à partir d'un échantillon audio de référence de 3 à 30 secondes

  • Embeddings de locuteur — représentations de locuteur 128-dim basées sur WavLM pour un contrôle précis de la voix

  • Jusqu'à 40 secondes d'audio continu — adapté pour des passages plus longs et des dialogues

  • Temps réel ou plus rapide — RTF ~0.2 sur RTX 5080, en temps réel même sur des GPU à budget limité

  • Apache 2.0 — entièrement ouvert pour un usage personnel et commercial

  • Cadre de préentraînement inclus — entraînez votre propre modèle TTS à partir de zéro dans n'importe quelle langue

Comparaison avec d'autres modèles TTS

Modèle
Paramètres
VRAM min
Clonage de voix
Langue
Licence

Kani-TTS-2

400M

3 Go

✅ Zero-shot

Anglais (extensible)

Apache 2.0

Kokoro

82M

2Go

❌ Voix prédéfinies

EN, JP, CN

Apache 2.0

Zonos

400M

8 Go

Multi

Apache 2.0

ChatTTS

300M

4 Go

❌ Graines aléatoires

Chinois, Anglais

AGPL 3.0

Chatterbox

500M

6 Go

Anglais

Apache 2.0

XTTS (Coqui)

467M

6 Go

Multi

MPL 2.0

F5-TTS

335M

4 Go

Multi

CC-BY-NC 4.0

Exigences

Composant
Minimum
Recommandé

GPU

N'importe lequel avec 3 Go de VRAM

RTX 3060 ou mieux

VRAM

3 Go

6 Go

RAM

8 Go

16Go

Disque

2Go

5Go

Python

3.9+

3.11+

CUDA

11.8+

12.0+

Recommandation Clore.ai : Un RTX 3060 (0,15–0,30 $/jour) est plus que suffisant. Même les instances GPU les moins chères sur Clore.ai exécuteront confortablement Kani-TTS-2. Pour le traitement par lot (livres audio, jeux de données), un RTX 4090 (0,5–2 $/jour) offre un excellent débit.

Installation

Démarrage rapide

Trois lignes pour générer de la parole :

Exemples d'utilisation

1. Synthèse vocale basique

2. Clonage vocal

Cloner n'importe quelle voix à partir d'un court échantillon audio de référence :

3. Génération par lots pour livres audio

Générer plusieurs chapitres efficacement :

4. API de streaming compatible OpenAI

Pour des applications en temps réel, utilisez le serveur compatible OpenAI :

Puis utilisez-le avec n'importe quel client TTS OpenAI :

Conseils pour les utilisateurs de Clore.ai

  1. C'est le modèle le moins cher à faire fonctionner — Avec 3 Go de VRAM, Kani-TTS-2 fonctionne sur littéralement n'importe quelle instance GPU sur Clore.ai. Un RTX 3060 à 0,15 $/jour est plus que suffisant pour la TTS en production.

  2. Combinez avec un modèle de langage — Louez une instance GPU et faites tourner à la fois un petit LLM (par ex., Mistral 3 8B) et Kani-TTS-2 simultanément pour un assistant vocal complet. Ils partageront le GPU avec de la marge.

  3. Précalculer les embeddings de locuteur — Extrayez les embeddings de locuteur une fois et enregistrez-les. Cela évite de charger le modèle WavLM embedder à chaque requête.

  4. Utilisez le serveur compatible OpenAI — Le kani-tts-2-openai-server fournit un remplacement plug-and-play pour l'API TTS d'OpenAI, facilitant l'intégration avec des applications existantes.

  5. Entraînez sur des langues personnalisées — Kani-TTS-2 inclut un cadre complet de préentraînement (kani-tts-2-pretrainarrow-up-right). Affinez le modèle sur votre propre jeu de données linguistique — cela ne nécessite que 8× H100 pendant ~6 heures.

Dépannage

Problème
Solution

ImportError : impossible d'importer LFM2

Installez la bonne version de transformers : pip install -U "transformers==4.56.0"

La qualité audio est faible / robotique

Augmentez température à 0,8–0,9 ; assurez-vous que l'audio de référence pour le clonage soit propre (sans bruit de fond)

Le clonage vocal ne ressemble pas à la référence

Utilisez 5–15 secondes d'audio clair d'un seul locuteur. Évitez la musique ou le bruit de fond dans la référence

CUDA out of memory

Ne devrait pas arriver avec le modèle 3 Go — vérifiez si d'autres processus utilisent la mémoire GPU (nvidia-smi)

L'audio se coupe en milieu de phrase

Kani-TTS-2 prend en charge jusqu'à ~40 secondes. Divisez les textes plus longs en phrases et concaténez les sorties

Lent sur CPU

L'inférence sur GPU est fortement recommandée. Même un GPU basique est 10–50× plus rapide que le CPU

Lectures complémentaires

Mis à jour

Ce contenu vous a-t-il été utile ?