Clonage vocal Chatterbox

Exécutez Chatterbox TTS par Resemble AI pour le clonage vocal zero-shot et la synthèse vocale multilingue sur les GPU Clore.ai.

Chatterbox est une famille de modèles de synthèse vocale texte-à-parole open source à la pointe par Resemble AIarrow-up-right. Il effectue le clonage de voix en zero-shot à partir d'un court extrait de référence (~10 secondes), prend en charge des balises paralinguistiques comme [rire] et [toux], et propose une variante multilingue couvrant plus de 23 langues. Trois variantes de modèle sont disponibles : Turbo (350M, faible latence), Original (500M, contrôles créatifs) et Multilingual (500M, 23+ langues).

GitHub : resemble-ai/chatterboxarrow-up-right PyPI : chatterbox-ttsarrow-up-right Licence : MIT

Principales caractéristiques

  • Clonage vocal zero-shot — cloner n'importe quelle voix à partir d'environ 10 secondes d'audio de référence

  • Balises paralinguistiques (Turbo) — [rire], [toux], [gloussement], [soupir] pour une voix réaliste

  • 23+ langues (Multilingual) — arabe, chinois, français, allemand, japonais, coréen, russe, espagnol, et plus

  • Réglage CFG & Exagération (Original) — contrôle créatif de l'expressivité

  • Trois tailles de modèle — Turbo (350M), Original (500M), Multilingual (500M)

  • Licence MIT — entièrement ouvert pour un usage commercial

Exigences

Composant
Minimum
Recommandé

GPU

RTX 3060 12 Go

RTX 3090 / RTX 4090

VRAM

6 Go

10 GB+

RAM

8 Go

16 Go

Disque

5 Go

15 Go

Python

3.10+

3.11

CUDA

11.8+

12.1+

Recommandation Clore.ai : RTX 3090 ($0,30–1,00/jour) pour une marge de VRAM confortable. RTX 3060 convient pour le modèle Turbo. Pour le modèle Multilingual avec de longs textes, envisagez une RTX 4090 ($0,50–2,00/jour).

Installation

Démarrage rapide

Modèle Turbo (latence la plus faible)

Modèle Original (Anglais, contrôles créatifs)

Exemples d'utilisation

Clonage de voix multilingue

Balises paralinguistiques (Turbo)

Script de traitement par lot

Conseils pour les utilisateurs de Clore.ai

  • Choix du modèle — utilisez Turbo pour des agents vocaux à faible latence, Original pour le travail créatif en anglais, Multilingual pour le contenu non anglais

  • Qualité de l'audio de référence — utilisez un extrait propre et sans bruit de 10–30 secondes pour de meilleurs résultats de clonage de voix

  • Configuration Docker — image de base pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime, exposer le port 7860/http pour Gradio

  • Gestion de la mémoire — appelez torch.cuda.empty_cache() entre de grands lots pour libérer de la VRAM

  • Langues prises en charge — ar, da, de, el, en, es, fi, fr, he, hi, it, ja, ko, ms, nl, no, pl, pt, ru, sv, sw, tr, zh

  • Espace HuggingFace — essayez avant de louer sur huggingface.co/spaces/ResembleAI/Chatterboxarrow-up-right

Dépannage

Problème
Solution

CUDA out of memory

Utilisez Turbo (350M) au lieu d'Original/Multilingual (500M), ou louez un GPU plus puissant

La voix clonée ne correspond pas

Utilisez un extrait de référence plus long (15–30 s), plus propre et avec un bruit de fond minimal

numpy conflit de version

Exécutez pip install numpy==1.26.4 --force-reinstall

Téléchargement lent du modèle

Les modèles sont récupérés depuis HuggingFace lors du premier lancement (~2 Go) ; pré-téléchargez avec huggingface-cli

L'audio contient des artefacts

Réduisez la longueur du texte par génération ; des textes très longs peuvent dégrader la qualité

ModuleNotFoundError

Assurez-vous que pip install chatterbox-tts terminé sans erreurs ; vérifiez la compatibilité avec Python 3.11

Mis à jour

Ce contenu vous a-t-il été utile ?