Clonage vocal Qwen3-TTS

Clonage vocal multilingue et TTS avec Qwen3-TTS — plus de 10 langues, streaming, contrôle des émotions

Qwen3-TTS par Alibaba est un modèle de synthèse vocale de pointe prenant en charge Plus de 10 langues avec clonage vocal à partir de seulement 3 secondes d'audio. Il propose un contrôle des émotions en langage naturel ("parler joyeusement", "chuchoter doucement"), un streaming avec une latence de 97 ms, et deux tailles de modèle (0,6B et 1,7B). Publié sous Apache 2.0, c'est l'un des systèmes TTS open-source les plus performants disponibles.

Principales caractéristiques

  • Plus de 10 langues: Anglais, chinois, japonais, coréen, français, allemand, espagnol, et plus

  • Clonage vocal en 3 secondes: Cloner n'importe quelle voix à partir d'un court échantillon audio

  • Contrôle naturel des émotions: Contrôler le style avec des instructions en texte clair

  • Prise en charge du streaming: 97 ms de latence pour le premier token — idéal pour les applications en temps réel

  • Deux tailles: 0,6B (4 Go VRAM) et 1,7B (8 Go VRAM)

  • Affinable: Modèles de base disponibles pour un entraînement personnalisé

  • Licence Apache 2.0: Utilisation commerciale complète

Variantes de modèle

Modèle
Paramètres
VRAM
Qualité
Vitesse
Idéal pour

Qwen3-TTS-0.6B-Instruct

0,6B

4 Go

Bon

Rapide

Temps réel, GPUs économiques

Qwen3-TTS-1.7B-Instruct

1,7B

8 Go

Meilleur

Moyen

Qualité production

Qwen3-TTS-0.6B-Base

0,6B

4 Go

Fine-tuning

Qwen3-TTS-1.7B-Base

1,7B

8 Go

Fine-tuning

Exigences

Composant
0,6B
1,7B

GPU

RTX 3060 6GB

RTX 3080 10Go

VRAM

4 Go

8 Go

RAM

8 Go

16Go

Disque

5Go

10Go

Python

3.10+

3.10+

GPU recommandé par Clore.ai: RTX 3060 (0,15–0,3 $/jour) pour 0,6B, RTX 3080 (0,2–0,5 $/jour) pour 1,7B

Installation

Démarrage rapide — Clonage vocal

Contrôle de l'émotion

Génération multilingue

Comparaison avec d'autres modèles TTS

Fonction
Qwen3-TTS
Zonos
Dia
Kokoro
XTTS

Langues

10+

1 (EN)

1 (EN)

1 (EN)

17

Clonage de voix

3 s

2-30 s

Non

Non

6 s

Streaming

✅ (97 ms)

Contrôle de l'émotion

✅ Naturel

✅ Automatique

Multi-locuteurs

VRAM min

4 Go

8 Go

8 Go

2Go

6 Go

Licence

Apache 2.0

Apache 2.0

Apache 2.0

Apache 2.0

AGPL

Conseils pour les utilisateurs de Clore.ai

  • 0,6B sur RTX 3060: Meilleure option économique à 0,15 $/jour — suffisamment bien pour la plupart des tâches TTS

  • Traitement par lots: Générez tous les clips audio en une seule session pour maximiser le temps de location

  • Mettre en cache l'audio de référence: Conservez vos références vocales sur un stockage persistant

  • Streaming pour le temps réel: Utilisez l'API de streaming pour les applications de chatbot/assistant

  • Affinez pour des voix personnalisées: Louez une RTX 4090 pendant quelques heures pour affiner le modèle de base sur vos données vocales

Dépannage

Problème
Solution

Mémoire insuffisante sur 1.7B

Passez à 0.6B ou utilisez torch_dtype=torch.float16

Le clone vocal sonne faux

Utilisez 5–10 secondes d'audio propre (sans bruit de fond)

Sortie dans la mauvaise langue

Passez explicitement language paramètre

Première génération lente

Normal — le modèle se charge au premier appel. Les appels suivants sont rapides

Lectures complémentaires

Mis à jour

Ce contenu vous a-t-il été utile ?