Clonage vocal Zonos TTS

Exécutez Zonos TTS par Zyphra pour le clonage vocal avec contrôle des émotions et de la tonalité sur les GPU Clore.ai.

Zonos par Zyphraarrow-up-right est un modèle de synthèse vocale text-to-speech en open-weight de 0,4 milliard de paramètres entraîné sur plus de 200 000 heures de voix multilingues. Il réalise un clonage vocal en zéro-shot à partir de seulement 2 à 30 secondes d'audio de référence et offre un contrôle fin de l'émotion, du débit de parole, de la variation de hauteur et de la qualité audio. La sortie est un audio haute fidélité à 44 kHz. Deux variantes de modèle sont disponibles : Transformer (meilleure qualité) et Hybrid/Mamba (inférence plus rapide).

GitHub : Zyphra/Zonosarrow-up-right HuggingFace : Zyphra/Zonos-v0.1-transformerarrow-up-right Licence : Apache 2.0

Principales caractéristiques

  • Clonage vocal à partir de 2–30 secondes — aucun fine-tuning requis

  • Sortie haute fidélité 44 kHz — qualité audio de niveau studio

  • Contrôle des émotions — bonheur, tristesse, colère, peur, surprise, dégoût via un vecteur 8D

  • Débit de parole et hauteur — contrôle indépendant et fin

  • Entrées de préfixe audio — permet le chuchotement et d'autres comportements difficiles à cloner

  • Multilingue — anglais, japonais, chinois, français, allemand

  • Deux architectures — Transformer (qualité) et Hybrid/Mamba (vitesse, ~2× temps réel sur RTX 4090)

  • Apache 2.0 — gratuit pour un usage personnel et commercial

Exigences

Composant
Minimum
Recommandé

GPU

RTX 3080 10 GB

RTX 4090 24 Go

VRAM

6 GB (Transformer)

10 GB+

RAM

16 Go

32 Go

Disque

10 Go

20 Go

Python

3.10+

3.11

CUDA

11.8+

12.4

Système

espeak-ng

Recommandation Clore.ai : RTX 3090 (0,30–1,00 $/jour) pour une marge confortable. RTX 4090 (0,50–2,00 $/jour) pour le modèle Hybrid et l'inférence la plus rapide.

Installation

Démarrage rapide

Exemples d'utilisation

Contrôle de l'émotion

Zonos accepte un vecteur d'émotion à 8 dimensions : [bonheur, tristesse, dégoût, peur, surprise, colère, autre, neutre].

Contrôle du débit de parole et de la hauteur

Interface Web Gradio

Exposer le port 7860/http dans votre commande Clore.ai et ouvrez le http_pub URL pour accéder à l'interface utilisateur.

Conseils pour les utilisateurs de Clore.ai

  • Choix du modèle — Transformer pour la meilleure qualité, Hybrid pour une inférence ~2× plus rapide (requiert GPU RTX 3000+)

  • Audio de référence — 10–30 secondes de parole propre donnent les meilleurs résultats ; des extraits plus courts (2–5 s) fonctionnent mais avec une fidélité moindre

  • Configuration Docker — utiliser pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime, ajouter apt-get install -y espeak-ng au démarrage

  • Mappage de ports — exposer 7860/http pour l'interface Gradio, 8000/http pour le serveur API

  • Contrôle de la graine — définissez torch.manual_seed() avant la génération pour une sortie reproductible

  • Paramètre de qualité audio — expérimentez avec le audio_quality champ de conditionnement pour une sortie plus propre

Dépannage

Problème
Solution

espeak-ng introuvable

Exécutez apt-get install -y espeak-ng (requis pour la phonémisation)

CUDA out of memory

Utilisez le modèle Transformer (plus petit que Hybrid) ; réduisez la longueur du texte par appel

Le modèle Hybrid échoue

Requiert un GPU Ampere+ (série RTX 3000 ou plus récente) et pip install -e ".[compile]"

La voix clonée sonne étrange

Utilisez un extrait de référence plus long (15–30 s) avec une parole claire et un bruit de fond minimal

Génération lente

Normal pour Transformer (~0,5× temps réel) ; Hybrid atteint ~2× temps réel sur RTX 4090

ModuleNotFoundError : zonos

Assurez-vous d'avoir installé depuis la source : cd Zonos && pip install -e .

Mis à jour

Ce contenu vous a-t-il été utile ?