> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-hi/audio-and-voice/qwen3-tts.md).

# Qwen3-TTS Voice Cloning

Alibaba का Qwen3-TTS एक अत्याधुनिक टेक्स्ट-टू-स्पीच मॉडल है जो समर्थन करता है **10+ भाषाएँ** केवल 3 सेकंड के ऑडियो से वॉयस क्लोनिंग के साथ। इसमें प्राकृतिक भाषा इमोशन कंट्रोल ("खुशी से बोलें", "धीरे से फुसफुसाएँ"), 97ms लेटेंसी के साथ स्ट्रीमिंग, और दो मॉडल आकार (0.6B और 1.7B) शामिल हैं। Apache 2.0 के तहत जारी, यह उपलब्ध सबसे सक्षम ओपन-सोर्स TTS सिस्टम में से एक है।

## प्रमुख विशेषताएँ

* **10+ भाषाएँ**: अंग्रेजी, चीनी, जापानी, कोरियाई, फ्रेंच, जर्मन, स्पेनिश, और अधिक
* **3-सेकंड वॉयस क्लोनिंग**: एक छोटे ऑडियो सैंपल से किसी भी आवाज़ को क्लोन करें
* **प्राकृतिक भाव नियंत्रण**: सादे टेक्स्ट निर्देशों के साथ शैली नियंत्रित करें
* **स्ट्रीमिंग समर्थन**: 97ms फर्स्ट-टोकन लेटेंसी — रीयल-टाइम ऐप्स के लिए शानदार
* **दो आकार**: 0.6B (4GB VRAM) और 1.7B (8GB VRAM)
* **फाइन-ट्यून करने योग्य**: कस्टम प्रशिक्षण के लिए बेस मॉडल उपलब्ध
* **Apache 2.0 लाइसेंस**: पूर्ण व्यावसायिक उपयोग

## मॉडल वेरिएंट

| मॉडल                    | पैरामीटर | VRAM | गुणवत्ता  | स्पीड | उत्तम हेतु         |
| ----------------------- | -------- | ---- | --------- | ----- | ------------------ |
| Qwen3-TTS-0.6B-Instruct | 0.6B     | 4GB  | अच्छा     | तेज़  | रीयल-टाइम, बजट GPU |
| Qwen3-TTS-1.7B-Instruct | 1.7B     | 8GB  | सर्वोत्तम | मध्यम | प्रोडक्शन गुणवत्ता |
| Qwen3-TTS-0.6B-Base     | 0.6B     | 4GB  | —         | —     | फाइन-ट्यूनिंग      |
| Qwen3-TTS-1.7B-Base     | 1.7B     | 8GB  | —         | —     | फाइन-ट्यूनिंग      |

## आवश्यकताएँ

| घटक    | 0.6B         | 1.7B          |
| ------ | ------------ | ------------- |
| GPU    | RTX 3060 6GB | RTX 3080 10GB |
| VRAM   | 4GB          | 8GB           |
| RAM    | 8GB          | 16GB          |
| डिस्क  | 5GB          | 10GB          |
| Python | 3.10+        | 3.10+         |

**अनुशंसित Clore.ai GPU**: 0.6B के लिए RTX 3060 ($0.15–0.3/दिन), 1.7B के लिए RTX 3080 ($0.2–0.5/दिन)

## इंस्टॉलेशन

```bash
pip install transformers torch torchaudio soundfile
```

## त्वरित आरंभ — वॉयस क्लोनिंग

```python
import torch
import torchaudio
from transformers import AutoModelForCausalLM, AutoProcessor

model_name = "Qwen/Qwen3-TTS-12Hz-1.7B-Instruct"
processor = AutoProcessor.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map="auto"
)

# संदर्भ वॉइस लोड करें (3+ सेकंड किसी भी आवाज़ का)
reference_audio, sr = torchaudio.load("reference_voice.wav")

# उस आवाज़ की क्लोनिंग के लिए स्पीच जनरेट करें
text = "Welcome to Clore.ai, the decentralized GPU rental marketplace."
inputs = processor(
    text=text,
    audio=reference_audio,
    sampling_rate=sr,
    return_tensors="pt"
).to("cuda")

with torch.no_grad():
    output = model.generate(**inputs, max_new_tokens=2048)

# डिकोड और सहेजें
audio = processor.decode(output[0])
torchaudio.save("output.wav", audio.unsqueeze(0), 24000)
```

## इमोशन नियंत्रण

```python
# प्राकृतिक भाषा निर्देशों के साथ इमोशन नियंत्रित करें
prompts = [
    ("खुशी से और ऊर्जावान रूप से बोलें", "शानदार खबर! हमने अभी नया फीचर लॉन्च किया!"),
    ("धीरे और कोमलता से फुसफुसाएँ", "मैं आपको GPU मूल्य निर्धारण के बारे में एक रहस्य बताता हूँ..."),
    ("पेशेवराना और स्पष्ट रूप से बोलें", "तिमाही नतीजे राजस्व में 40% वृद्धि दिखाते हैं."),
    ("उत्साह के साथ बोलें", "आप बेंचमार्क परिणामों पर विश्वास नहीं करेंगे!"),
]

प्रॉम्प्ट में शैली, टेक्स्ट के लिए:
    inputs = processor(
        text=text,
        style_prompt=style,
        audio=reference_audio,
        sampling_rate=sr,
        return_tensors="pt"
    ).to("cuda")
    
    output = model.generate(**inputs, max_new_tokens=2048)
    audio = processor.decode(output[0])
    torchaudio.save(f"output_{style[:10]}.wav", audio.unsqueeze(0), 24000)
```

## बहुभाषी जनरेशन

```python
# विभिन्न भाषाओं में जनरेट करें (वही आवाज़!)
texts = {
    "en": "Hello, welcome to the GPU marketplace.",
    "zh": "你好，欢迎来到GPU市场。",
    "ja": "こんにちは、GPUマーケットプレイスへようこそ。",
    "ko": "안녕하세요, GPU 마켓플레이스에 오신 것을 환영합니다.",
    "fr": "Bonjour, bienvenue sur le marché GPU.",
    "de": "Hallo, willkommen auf dem GPU-Marktplatz.",
}

for lang, text in texts.items():
    inputs = processor(
        text=text, audio=reference_audio, sampling_rate=sr,
        language=lang, return_tensors="pt"
    ).to("cuda")
    output = model.generate(**inputs, max_new_tokens=2048)
    audio = processor.decode(output[0])
    torchaudio.save(f"output_{lang}.wav", audio.unsqueeze(0), 24000)
```

## अन्य TTS मॉडलोंとの तुलना

| फ़ीचर          | Qwen3-TTS   | Zonos      | Dia        | Kokoro     | XTTS    |
| -------------- | ----------- | ---------- | ---------- | ---------- | ------- |
| भाषाएँ         | 10+         | 1 (EN)     | 1 (EN)     | 1 (EN)     | 17      |
| वॉयस क्लोन     | 3 सेकंड     | 2-30 सेकंड | नहीं       | नहीं       | 6 सेकंड |
| स्ट्रीमिंग     | ✅ (97ms)    | ❌          | ❌          | ❌          | ✅       |
| इमोशन नियंत्रण | ✅ प्राकृतिक | ❌          | ✅ स्वचालित | ❌          | ❌       |
| मल्टी-स्पीकर   | ❌           | ❌          | ✅          | ❌          | ❌       |
| न्यूनतम VRAM   | 4GB         | 8GB        | 8GB        | 2GB        | 6GB     |
| लाइसेंस        | Apache 2.0  | Apache 2.0 | Apache 2.0 | Apache 2.0 | AGPL    |

## Clore.ai उपयोगकर्ताओं के लिए सुझाव

* **RTX 3060 पर 0.6B**: $0.15/दिन पर सर्वश्रेष्ठ बजट विकल्प — अधिकांश TTS कार्यों के लिए पर्याप्त
* **बैच प्रोसेसिंग**: रेंटल समय अधिकतम करने के लिए एक सत्र में सभी ऑडियो क्लिप जनरेट करें
* **संदर्भ ऑडियो कैश करें**: अपनी वॉइस संदर्भों को स्थायी भंडारण पर रखें
* **रीयल-टाइम के लिए स्ट्रीमिंग**: चैटबॉट/सहायक अनुप्रयोगों के लिए स्ट्रीमिंग API का उपयोग करें
* **कस्टम वॉइस के लिए फाइन-ट्यून करें**: अपनी वॉइस डेटा पर बेस मॉडल को फाइन-ट्यून करने के लिए कुछ घंटे के लिए RTX 4090 किराए पर लें

## समस्याओं का निवारण

| समस्या                 | समाधान                                                          |
| ---------------------- | --------------------------------------------------------------- |
| 1.7B पर मेमोरी समाप्त  | 0.6B पर स्विच करें या उपयोग करें `torch_dtype=torch.float16`    |
| वॉयस क्लोन गलत लगता है | 5-10 सेकंड का साफ़ ऑडियो उपयोग करें (कोई बैकग्राउंड शोर नहीं)   |
| गलत भाषा आउटपुट        | स्पष्ट रूप से पास करें `language` पैरामीटर                      |
| पहली जेनरेशन धीमी है   | नॉर्मल — मॉडल पहले कॉल पर लोड होता है। बाद के कॉल तेज़ होते हैं |

## अधिक पढ़ने के लिए

* [HuggingFace मॉडल](https://huggingface.co/Qwen/Qwen3-TTS-12Hz-1.7B-Instruct)
* [Qwen3-TTS प्रलेखन](https://qwen.readthedocs.io/)
* [वॉयस क्लोनिंग गाइड](https://medium.com/@zh.milo/qwen3-tts-the-complete-2026-guide)


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-hi/audio-and-voice/qwen3-tts.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
