> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-fr/audio-et-voix/qwen3-tts.md).

# Clonage vocal Qwen3-TTS

Qwen3-TTS par Alibaba est un modèle de synthèse vocale de pointe prenant en charge **Plus de 10 langues** avec clonage vocal à partir de seulement 3 secondes d'audio. Il propose un contrôle des émotions en langage naturel ("parler joyeusement", "chuchoter doucement"), un streaming avec une latence de 97 ms, et deux tailles de modèle (0,6B et 1,7B). Publié sous Apache 2.0, c'est l'un des systèmes TTS open-source les plus performants disponibles.

## Principales caractéristiques

* **Plus de 10 langues**: Anglais, chinois, japonais, coréen, français, allemand, espagnol, et plus
* **Clonage vocal en 3 secondes**: Cloner n'importe quelle voix à partir d'un court échantillon audio
* **Contrôle naturel des émotions**: Contrôler le style avec des instructions en texte clair
* **Prise en charge du streaming**: 97 ms de latence pour le premier token — idéal pour les applications en temps réel
* **Deux tailles**: 0,6B (4 Go VRAM) et 1,7B (8 Go VRAM)
* **Affinable**: Modèles de base disponibles pour un entraînement personnalisé
* **Licence Apache 2.0**: Utilisation commerciale complète

## Variantes de modèle

| Modèle                  | Paramètres | VRAM | Qualité  | Vitesse | Idéal pour                   |
| ----------------------- | ---------- | ---- | -------- | ------- | ---------------------------- |
| Qwen3-TTS-0.6B-Instruct | 0,6B       | 4 Go | Bon      | Rapide  | Temps réel, GPUs économiques |
| Qwen3-TTS-1.7B-Instruct | 1,7B       | 8 Go | Meilleur | Moyen   | Qualité production           |
| Qwen3-TTS-0.6B-Base     | 0,6B       | 4 Go | —        | —       | Fine-tuning                  |
| Qwen3-TTS-1.7B-Base     | 1,7B       | 8 Go | —        | —       | Fine-tuning                  |

## Exigences

| Composant | 0,6B         | 1,7B          |
| --------- | ------------ | ------------- |
| GPU       | RTX 3060 6GB | RTX 3080 10Go |
| VRAM      | 4 Go         | 8 Go          |
| RAM       | 8 Go         | 16Go          |
| Disque    | 5Go          | 10Go          |
| Python    | 3.10+        | 3.10+         |

**GPU recommandé par Clore.ai**: RTX 3060 (0,15–0,3 $/jour) pour 0,6B, RTX 3080 (0,2–0,5 $/jour) pour 1,7B

## Installation

```bash
pip install transformers torch torchaudio soundfile
```

## Démarrage rapide — Clonage vocal

```python
import torch
import torchaudio
from transformers import AutoModelForCausalLM, AutoProcessor

model_name = "Qwen/Qwen3-TTS-12Hz-1.7B-Instruct"
processor = AutoProcessor.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map="auto"
)

# Charger la voix de référence (3+ secondes de n'importe quelle voix)
reference_audio, sr = torchaudio.load("reference_voice.wav")

# Générer la parole en clonant cette voix
text = "Welcome to Clore.ai, the decentralized GPU rental marketplace."
inputs = processor(
    text=text,
    audio=reference_audio,
    sampling_rate=sr,
    return_tensors="pt"
).to("cuda")

with torch.no_grad():
    output = model.generate(**inputs, max_new_tokens=2048)

# Décoder et sauvegarder
audio = processor.decode(output[0])
torchaudio.save("output.wav", audio.unsqueeze(0), 24000)
```

## Contrôle de l'émotion

```python
# Contrôler l'émotion avec des instructions en langage naturel
prompts = [
    ("Parlez joyeusement et avec énergie", "Excellente nouvelle ! Nous venons de lancer la nouvelle fonctionnalité !"),
    ("Chuchotez doucement et avec délicatesse", "Laissez-moi vous confier un secret sur les prix des GPU..."),
    ("Parlez professionnellement et clairement", "Les résultats trimestriels montrent une augmentation de 40 % du chiffre d'affaires."),
    ("Parlez avec enthousiasme", "Vous n'allez pas croire les résultats des benchmarks !"),
]

pour style, text in prompts:
    inputs = processor(
        text=text,
        style_prompt=style,
        audio=reference_audio,
        sampling_rate=sr,
        return_tensors="pt"
    ).to("cuda")
    
    output = model.generate(**inputs, max_new_tokens=2048)
    audio = processor.decode(output[0])
    torchaudio.save(f"output_{style[:10]}.wav", audio.unsqueeze(0), 24000)
```

## Génération multilingue

```python
# Générer dans différentes langues (même voix !)
texts = {
    "en": "Hello, welcome to the GPU marketplace.",
    "zh": "你好，欢迎来到GPU市场。",
    "ja": "こんにちは、GPUマーケットプレイスへようこそ。",
    "ko": "안녕하세요, GPU 마켓플레이ス에 오신 것을 환영합니다。",
    "fr": "Bonjour, bienvenue sur le marché GPU.",
    "de": "Hallo, willkommen auf dem GPU-Marktplatz.",
}

for lang, text in texts.items():
    inputs = processor(
        text=text, audio=reference_audio, sampling_rate=sr,
        language=lang, return_tensors="pt"
    ).to("cuda")
    output = model.generate(**inputs, max_new_tokens=2048)
    audio = processor.decode(output[0])
    torchaudio.save(f"output_{lang}.wav", audio.unsqueeze(0), 24000)
```

## Comparaison avec d'autres modèles TTS

| Fonction              | Qwen3-TTS  | Zonos      | Dia           | Kokoro     | XTTS |
| --------------------- | ---------- | ---------- | ------------- | ---------- | ---- |
| Langues               | 10+        | 1 (EN)     | 1 (EN)        | 1 (EN)     | 17   |
| Clonage de voix       | 3 s        | 2-30 s     | Non           | Non        | 6 s  |
| Streaming             | ✅ (97 ms)  | ❌          | ❌             | ❌          | ✅    |
| Contrôle de l'émotion | ✅ Naturel  | ❌          | ✅ Automatique | ❌          | ❌    |
| Multi-locuteurs       | ❌          | ❌          | ✅             | ❌          | ❌    |
| VRAM min              | 4 Go       | 8 Go       | 8 Go          | 2Go        | 6 Go |
| Licence               | Apache 2.0 | Apache 2.0 | Apache 2.0    | Apache 2.0 | AGPL |

## Conseils pour les utilisateurs de Clore.ai

* **0,6B sur RTX 3060**: Meilleure option économique à 0,15 $/jour — suffisamment bien pour la plupart des tâches TTS
* **Traitement par lots**: Générez tous les clips audio en une seule session pour maximiser le temps de location
* **Mettre en cache l'audio de référence**: Conservez vos références vocales sur un stockage persistant
* **Streaming pour le temps réel**: Utilisez l'API de streaming pour les applications de chatbot/assistant
* **Affinez pour des voix personnalisées**: Louez une RTX 4090 pendant quelques heures pour affiner le modèle de base sur vos données vocales

## Dépannage

| Problème                       | Solution                                                                        |
| ------------------------------ | ------------------------------------------------------------------------------- |
| Mémoire insuffisante sur 1.7B  | Passez à 0.6B ou utilisez `torch_dtype=torch.float16`                           |
| Le clone vocal sonne faux      | Utilisez 5–10 secondes d'audio propre (sans bruit de fond)                      |
| Sortie dans la mauvaise langue | Passez explicitement `language` paramètre                                       |
| Première génération lente      | Normal — le modèle se charge au premier appel. Les appels suivants sont rapides |

## Lectures complémentaires

* [Modèles HuggingFace](https://huggingface.co/Qwen/Qwen3-TTS-12Hz-1.7B-Instruct)
* [Documentation Qwen3-TTS](https://qwen.readthedocs.io/)
* [Guide de clonage vocal](https://medium.com/@zh.milo/qwen3-tts-the-complete-2026-guide)


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-fr/audio-et-voix/qwen3-tts.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.