Clonage vocal Zonos TTS
Exécutez Zonos TTS par Zyphra pour le clonage vocal avec contrôle des émotions et de la tonalité sur les GPU Clore.ai.
Zonos par Zyphra est un modèle de synthèse vocale text-to-speech en open-weight de 0,4 milliard de paramètres entraîné sur plus de 200 000 heures de voix multilingues. Il réalise un clonage vocal en zéro-shot à partir de seulement 2 à 30 secondes d'audio de référence et offre un contrôle fin de l'émotion, du débit de parole, de la variation de hauteur et de la qualité audio. La sortie est un audio haute fidélité à 44 kHz. Deux variantes de modèle sont disponibles : Transformer (meilleure qualité) et Hybrid/Mamba (inférence plus rapide).
GitHub : Zyphra/Zonos HuggingFace : Zyphra/Zonos-v0.1-transformer Licence : Apache 2.0
Principales caractéristiques
Clonage vocal à partir de 2–30 secondes — aucun fine-tuning requis
Sortie haute fidélité 44 kHz — qualité audio de niveau studio
Contrôle des émotions — bonheur, tristesse, colère, peur, surprise, dégoût via un vecteur 8D
Débit de parole et hauteur — contrôle indépendant et fin
Entrées de préfixe audio — permet le chuchotement et d'autres comportements difficiles à cloner
Multilingue — anglais, japonais, chinois, français, allemand
Deux architectures — Transformer (qualité) et Hybrid/Mamba (vitesse, ~2× temps réel sur RTX 4090)
Apache 2.0 — gratuit pour un usage personnel et commercial
Exigences
GPU
RTX 3080 10 GB
RTX 4090 24 Go
VRAM
6 GB (Transformer)
10 GB+
RAM
16 Go
32 Go
Disque
10 Go
20 Go
Python
3.10+
3.11
CUDA
11.8+
12.4
Système
espeak-ng
—
Recommandation Clore.ai : RTX 3090 (0,30–1,00 $/jour) pour une marge confortable. RTX 4090 (0,50–2,00 $/jour) pour le modèle Hybrid et l'inférence la plus rapide.
Installation
Démarrage rapide
Exemples d'utilisation
Contrôle de l'émotion
Zonos accepte un vecteur d'émotion à 8 dimensions : [bonheur, tristesse, dégoût, peur, surprise, colère, autre, neutre].
Contrôle du débit de parole et de la hauteur
Interface Web Gradio
Exposer le port 7860/http dans votre commande Clore.ai et ouvrez le http_pub URL pour accéder à l'interface utilisateur.
Conseils pour les utilisateurs de Clore.ai
Choix du modèle — Transformer pour la meilleure qualité, Hybrid pour une inférence ~2× plus rapide (requiert GPU RTX 3000+)
Audio de référence — 10–30 secondes de parole propre donnent les meilleurs résultats ; des extraits plus courts (2–5 s) fonctionnent mais avec une fidélité moindre
Configuration Docker — utiliser
pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime, ajouterapt-get install -y espeak-ngau démarrageMappage de ports — exposer
7860/httppour l'interface Gradio,8000/httppour le serveur APIContrôle de la graine — définissez
torch.manual_seed()avant la génération pour une sortie reproductibleParamètre de qualité audio — expérimentez avec le
audio_qualitychamp de conditionnement pour une sortie plus propre
Dépannage
espeak-ng introuvable
Exécutez apt-get install -y espeak-ng (requis pour la phonémisation)
CUDA out of memory
Utilisez le modèle Transformer (plus petit que Hybrid) ; réduisez la longueur du texte par appel
Le modèle Hybrid échoue
Requiert un GPU Ampere+ (série RTX 3000 ou plus récente) et pip install -e ".[compile]"
La voix clonée sonne étrange
Utilisez un extrait de référence plus long (15–30 s) avec une parole claire et un bruit de fond minimal
Génération lente
Normal pour Transformer (~0,5× temps réel) ; Hybrid atteint ~2× temps réel sur RTX 4090
ModuleNotFoundError : zonos
Assurez-vous d'avoir installé depuis la source : cd Zonos && pip install -e .
Mis à jour
Ce contenu vous a-t-il été utile ?