# TTS इंजन तुलना

Clore.ai GPU सर्वरों पर तैनाती के लिए प्रमुख ओपन-सोर्स टेक्स्ट-टू-स्पीच इंजनों की तुलना करें।

{% hint style="info" %}
**टेक्स्ट-टू-स्पीच (TTS)** लिखित पाठ को प्राकृतिक सुनाई देने वाले ऑडियो में बदलता है। यह गाइड पाँच प्रमुख ओपन-सोर्स TTS इंजनों की तुलना करता है: XTTS v2, Bark, Kokoro, Fish Speech, और MeloTTS — गुणवत्ता, गति, भाषा समर्थन और वॉइस क्लोनिंग क्षमताओं को कवर करते हुए।
{% endhint %}

***

## त्वरित निर्णय मैट्रिक्स

|                    | XTTS v2              | Bark               | Kokoro         | 🆕 — WebUI के साथ 100+ LLMs को फाइन-ट्यून करें, LoRA/QLoRA, RLHF — | MeloTTS        |
| ------------------ | -------------------- | ------------------ | -------------- | ------------------------------------------------------------------ | -------------- |
| **डेवलपर**         | Coqui AI             | Suno AI            | Hexgrad        | Fish Audio                                                         | MyShell AI     |
| **गुणवत्ता**       | ⭐⭐⭐⭐⭐                | ⭐⭐⭐⭐               | ⭐⭐⭐⭐           | ⭐⭐⭐⭐⭐                                                              | ⭐⭐⭐            |
| **गति**            | मध्यम                | धीमा               | **तेज़**       | **तेज़**                                                           | **सबसे तेज**   |
| **वॉइस क्लोनिंग**  | ✅ (3s क्लिप)         | ✅ (वॉइस प्रीसेट्स) | ✅ (सीमित)      | ✅ (10s क्लिप)                                                      | ❌              |
| **भाषाएँ**         | 17                   | 10+                | अंग्रेज़ी      | 8+                                                                 | 8              |
| **न्यूनतम VRAM**   | 4GB                  | 8GB                | **CPU ठीक है** | 4GB                                                                | **CPU ठीक है** |
| **लाइसेंस**        | CPML (गैर-वाणिज्यिक) | MIT                | Apache 2.0     | CC BY-NC-SA                                                        | MIT            |
| **GitHub स्टार्स** | 35K+ (Coqui TTS)     | 38K+               | 12K+           | 14K+                                                               | 15K+           |

***

## समीक्षा

### XTTS v2

Coqui का XTTS v2 ओपन-सोर्स वॉइस क्लोनिंग TTS के लिए गोल्ड स्टैंडर्ड है। यह 3-सेकंड ऑडियो क्लिप से किसी भी आवाज़ को असाधारण निष्ठा के साथ क्लोन कर सकता है।

**दर्शन**: अधिकतम अभिव्यक्ति और वॉइस क्लोनिंग गुणवत्ता।

```python
from TTS.api import TTS

tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to("cuda")

# 3s संदर्भ से जीरो-शॉट वॉइस क्लोनिंग
tts.tts_to_file(
    text="Hello, this is a cloned voice speaking naturally.",
    speaker_wav="reference_voice.wav",
    language="en",
    file_path="output.wav"
)
```

### Bark

Suno का Bark एक ट्रांसफॉर्मर-आधारित TTS मॉडल है जो अत्यधिक अभिव्यक्तिपूर्ण भाषण उत्पन्न करता है, जिसमें गैर-भाषण ध्वनियाँ भी शामिल हैं: हँसी, आहें, संगीत और साउंड इफेक्ट।

**दर्शन**: केवल भाषण ही नहीं — पूर्ण ऑडियो जनरेशन।

```python
from bark import SAMPLE_RATE, generate_audio, preload_models
from scipy.io.wavfile import write as write_wav

preload_models()

audio_array = generate_audio(
    "[laughs] Hello! [clears throat] This is Bark TTS. [sighs]"
)
write_wav("output.wav", SAMPLE_RATE, audio_array)
```

### Kokoro

Kokoro एक हल्का, तेज़ TTS मॉडल है जिसे अंग्रेज़ी के लिए अनुकूलित किया गया है। इसके छोटे आकार (\~82M पैरामीटर) के बावजूद यह आश्चर्यजनक रूप से उच्च गुणवत्ता प्रदान करता है।

**दर्शन**: छोटा मॉडल, बड़ी गुणवत्ता, कहीं भी चल सकता है।

```python
from kokoro import KPipeline
import soundfile as sf

pipeline = KPipeline(lang_code='a')  # 'a' = American English

generator = pipeline(
    "The quick brown fox jumps over the lazy dog.",
    voice='af_heart',  # pre-built voice
    speed=1.0,
)

for _, _, audio in generator:
    sf.write('output.wav', audio, 24000)
```

### 🆕 — WebUI के साथ 100+ LLMs को फाइन-ट्यून करें, LoRA/QLoRA, RLHF —

Fish Audio का Fish Speech एक प्रोडक्शन-ग्रेड TTS है जिसमें छोटे क्लिप से असाधारण वॉइस क्लोनिंग है। यह एक नवीन codec + भाषा मॉडल आर्किटेक्चर उपयोग करता है।

**दर्शन**: प्रोडक्शन गुणवत्ता, तेज़ इन्फरेंस, उत्कृष्ट क्लोनिंग।

```python
# Fish Speech HTTP API के माध्यम से
import requests

response = requests.post(
    "http://localhost:8080/v1/tts",
    json={
        "text": "Hello, this is Fish Speech generating audio.",
        "reference_id": "your-voice-id",
        "format": "wav",
    }
)

with open("output.wav", "wb") as f:
    f.write(response.content)
```

### MeloTTS

MyShell का MeloTTS अल्ट्रा-फास्ट, बहु-उच्चारण TTS है जो रीयल-टाइम अनुप्रयोगों के लिए अनुकूलित है। यह CPU पर कुशलता से चलता है और कई अंग्रेज़ी उच्चारणों और एशियाई भाषाओं का समर्थन करता है।

**दर्शन**: किसी भी स्केल पर रीयल-टाइम गति।

```python
from melo.api import TTS

speed = 1.0
device = 'auto'

model = TTS(language='EN', device=device)
speaker_ids = model.hps.data.spk2id

output_path = 'output.wav'
model.tts_to_file(
    "Hello world! MeloTTS is very fast.",
    speaker_ids['EN-Default'],
    output_path,
    speed=speed
)
```

***

## गुणवत्ता तुलना

### प्राकृतिकता स्कोर (MOS — Mean Opinion Score, 1-5)

{% hint style="info" %}
MOS स्कोर प्रकाशित पेपर्स और समुदायिक मूल्यांकनों पर आधारित अनुमानित मान हैं। वास्तविक गुणवत्ता पाठ सामग्री और वॉइस कॉन्फ़िगरेशन पर बहुत निर्भर करती है।
{% endhint %}

| मॉडल                                                               | अंग्रेज़ी MOS | बहुभाषी MOS         | अभिव्यक्तित्व   |
| ------------------------------------------------------------------ | ------------- | ------------------- | --------------- |
| XTTS v2                                                            | 4.3           | 4.1                 | ⭐⭐⭐⭐⭐           |
| Bark                                                               | 3.9           | 3.7                 | ⭐⭐⭐⭐⭐ (विशिष्ट) |
| Kokoro                                                             | 4.2           | लागू नहीं (केवल EN) | ⭐⭐⭐             |
| 🆕 — WebUI के साथ 100+ LLMs को फाइन-ट्यून करें, LoRA/QLoRA, RLHF — | 4.4           | 4.2                 | ⭐⭐⭐⭐            |
| MeloTTS                                                            | 3.8           | 3.6                 | ⭐⭐              |

### प्रत्येक मॉडल का सर्वश्रेष्ठ उपयोग

| मॉडल                                                               | उल्लेखनीय गुणवत्ता विशेषता                                  |
| ------------------------------------------------------------------ | ----------------------------------------------------------- |
| XTTS v2                                                            | लगभग-परफेक्ट वॉइस क्लोनिंग, भावनात्मक रेंज                  |
| Bark                                                               | गैर-भाषण ध्वनियाँ, हँसी, संगीत, इफेक्ट                      |
| Kokoro                                                             | गुणवत्ता-निरपेक्ष आकार अनुपात में सर्वश्रेष्ठ, प्राकृतिक लय |
| 🆕 — WebUI के साथ 100+ LLMs को फाइन-ट्यून करें, LoRA/QLoRA, RLHF — | सर्वोत्तम कुल प्राकृतिकता + क्लोनिंग सटीकता                 |
| MeloTTS                                                            | लंबे पाठों के लिए सुसंगत, साफ़ आउटपुट                       |

***

## स्पीड बेंचमार्क

### प्रति सेकंड वर्ण (CPU बनाम GPU)

परीक्षण: "The quick brown fox jumps over the lazy dog. How are you today?" (60 वर्ण)

| मॉडल                                                               | CPU गति              | GPU गति (RTX 3080) | रीयल-टाइम फैक्टर |
| ------------------------------------------------------------------ | -------------------- | ------------------ | ---------------- |
| XTTS v2                                                            | \~15 वर्ण/सेकंड      | \~150 वर्ण/सेकंड   | 0.3× (GPU)       |
| Bark                                                               | \~5 वर्ण/सेकंड       | \~40 वर्ण/सेकंड    | 0.1× (GPU)       |
| Kokoro                                                             | \~200 वर्ण/सेकंड     | \~800 वर्ण/सेकंड   | **5× (GPU)**     |
| 🆕 — WebUI के साथ 100+ LLMs को फाइन-ट्यून करें, LoRA/QLoRA, RLHF — | \~80 वर्ण/सेकंड      | \~500 वर्ण/सेकंड   | **3× (GPU)**     |
| MeloTTS                                                            | **\~500 वर्ण/सेकंड** | \~2000 वर्ण/सेकंड  | **12× (GPU)**    |

*रीयल-टाइम फैक्टर > 1.0 का अर्थ है प्लेबैक गति से तेज़*

### 1 मिनट ऑडियो जनरेट करने का समय

| मॉडल                                                               | CPU       | RTX 3080 | A100    |
| ------------------------------------------------------------------ | --------- | -------- | ------- |
| XTTS v2                                                            | \~8 मिनट  | \~30s    | \~10s   |
| Bark                                                               | \~20 मिनट | \~3 मिनट | \~45s   |
| Kokoro                                                             | \~20s     | \~5s     | \~2s    |
| 🆕 — WebUI के साथ 100+ LLMs को फाइन-ट्यून करें, LoRA/QLoRA, RLHF — | \~45s     | \~8s     | \~3s    |
| MeloTTS                                                            | **\~8s**  | **\~2s** | **<1s** |

{% hint style="success" %}
**रियल-टाइम अनुप्रयोगों के लिए**: MeloTTS और Kokoro स्पष्ट विजेता हैं। दोनों CPU पर भी प्लेबैक गति से तेज़ भाषण जेनरेट कर सकते हैं।
{% endhint %}

***

## भाषा समर्थन

### समर्थित भाषाएँ

| मॉडल                                                               | भाषाएँ | उल्लेखनीय                                                          |
| ------------------------------------------------------------------ | ------ | ------------------------------------------------------------------ |
| XTTS v2                                                            | 17     | EN, ES, FR, DE, IT, PT, PL, TR, RU, NL, CS, AR, ZH, JA, HU, KO, HI |
| Bark                                                               | 10+    | EN, ZH, FR, DE, HI, IT, JA, KO, PL, PT, RU, ES, TR                 |
| Kokoro                                                             | 2      | अंग्रेज़ी (US/UK), जापानी (सीमित)                                  |
| 🆕 — WebUI के साथ 100+ LLMs को फाइन-ट्यून करें, LoRA/QLoRA, RLHF — | 8      | EN, ZH, JA, KO, FR, DE, AR, ES                                     |
| MeloTTS                                                            | 8      | EN (4 उच्चारण), ES, FR, ZH, JA, KO                                 |

### भाषा गुणवत्ता नोट्स

| मॉडल                                                               | अंग्रेज़ी | चीनी           | जापानी | यूरोपीय   |
| ------------------------------------------------------------------ | --------- | -------------- | ------ | --------- |
| XTTS v2                                                            | अत्युत्तम | अच्छा          | अच्छा  | अत्युत्तम |
| Bark                                                               | अच्छा     | औसत            | औसत    | अच्छा     |
| Kokoro                                                             | अत्युत्तम | ❌              | सीमित  | ❌         |
| 🆕 — WebUI के साथ 100+ LLMs को फाइन-ट्यून करें, LoRA/QLoRA, RLHF — | अत्युत्तम | **सबसे अच्छा** | अच्छा  | अच्छा     |
| MeloTTS                                                            | अच्छा     | अच्छा          | अच्छा  | अच्छा     |

{% hint style="info" %}
**चीनी TTS के लिए**: Fish Speech और MeloTTS सबसे अच्छे ओपन-सोर्स विकल्प हैं। दोनों स्वरों और वर्णों को स्वाभाविक रूप से संभालते हैं।

**बहुभाषी अनुप्रयोगों के लिए**: XTTS v2 सबसे अधिक भाषाओं का समर्थन करता है और सभी में सुसंगत गुणवत्ता देता है।
{% endhint %}

***

## वॉइस क्लोनिंग तुलना

### क्लोनिंग क्षमताएँ

| मॉडल                                                               | संदर्भ लंबाई        | क्लोनिंग गुणवत्ता | जीरो-शॉट |
| ------------------------------------------------------------------ | ------------------- | ----------------- | -------- |
| XTTS v2                                                            | **3 सेकंड**         | ⭐⭐⭐⭐⭐             | ✅        |
| Bark                                                               | केवल वॉइस प्रीसेट्स | ⭐⭐⭐               | आंशिक    |
| Kokoro                                                             | समर्थित नहीं        | ❌                 | ❌        |
| 🆕 — WebUI के साथ 100+ LLMs को फाइन-ट्यून करें, LoRA/QLoRA, RLHF — | 10 सेकंड            | ⭐⭐⭐⭐⭐             | ✅        |
| MeloTTS                                                            | समर्थित नहीं        | ❌                 | ❌        |

### XTTS v2 वॉइस क्लोनिंग

```python
from TTS.api import TTS
import torch

# मॉडल लोड करें
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2")
tts.to("cuda" if torch.cuda.is_available() else "cpu")

# संदर्भ से आवाज़ क्लोन करें (न्यूनतम 3 सेकंड, आदर्श 10-30 सेकंड)
tts.tts_to_file(
    text="""
    हमारे पॉडकास्ट में आपका स्वागत है। आज हम AI के भविष्य पर चर्चा कर रहे हैं 
    और इसका समाज पर प्रभाव। मैं आपका होस्ट हूँ, और मैं उत्साहित हूँ 
    आपके साथ कुछ दिलचस्प जानकारियाँ साझा करने के लिए।
    """,
    speaker_wav="speaker_sample.wav",  # आपका संदर्भ ऑडियो
    language="en",
    file_path="cloned_voice_output.wav"
)
```

### Fish Speech वॉइस क्लोनिंग

```bash
# संदर्भ ऑडियो से क्लोन करें
fish_speech_cli tts \
  --text "This is my cloned voice speaking a new sentence." \
  --reference-audio speaker_sample.wav \
  --reference-text "The original text spoken in the reference audio." \
  --output cloned_output.wav
```

### Bark वॉइस प्रीसेट्स

```python
from bark import generate_audio, SAMPLE_RATE
from scipy.io.wavfile import write

# Bark पूर्वनिर्धारित स्पीकर कोड्स का उपयोग करता है
voice_presets = {
    "male_US": "v2/en_speaker_6",
    "female_US": "v2/en_speaker_9",
    "male_UK": "v2/en_speaker_0",
    "announcer": "v2/en_speaker_2",
}

audio = generate_audio(
    "Welcome! [laughs] This is absolutely fascinating technology.",
    history_prompt=voice_presets["female_US"]
)
write("bark_output.wav", SAMPLE_RATE, audio)
```

***

## XTTS v2: गहन विवरण

### आर्किटेक्चर

* **VITS + GPT** हाइब्रिड आर्किटेक्चर
* 17 भाषाओं में 16K+ घंटे पर प्रशिक्षण
* जीरो-शॉट क्लोनिंग के लिए 3-सेकंड न्यूनतम

### Clore.ai पर इंस्टॉलेशन

```bash
pip install TTS
# GPU संस्करण
pip install TTS[all]
```

### Docker तैनाती

```dockerfile
FROM nvidia/cuda:12.1.0-cudnn8-runtime-ubuntu22.04

RUN apt-get update && apt-get install -y python3 python3-pip git ffmpeg
RUN pip3 install TTS fastapi uvicorn

WORKDIR /app
COPY server.py .

EXPOSE 5002
CMD ["uvicorn", "server:app", "--host", "0.0.0.0", "--port", "5002"]
```

```python
# server.py — XTTS v2 REST API
from fastapi import FastAPI, UploadFile, Form
from fastapi.responses import FileResponse
from TTS.api import TTS
import tempfile, os

app = FastAPI()
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to("cuda")

@app.post("/tts")
async def synthesize(
    text: str = Form(...),
    language: str = Form("en"),
    speaker_file: UploadFile = None
):
    with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as out:
        output_path = out.name

    speaker_path = None
    if speaker_file:
        with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as ref:
            ref.write(await speaker_file.read())
            speaker_path = ref.name

    tts.tts_to_file(
        text=text,
        speaker_wav=speaker_path,
        language=language,
        file_path=output_path
    )
    return FileResponse(output_path, media_type="audio/wav")
```

```bash
docker build -t xtts-server .
docker run -d --gpus all -p 5002:5002 xtts-server
```

**कमज़ोरियाँ**: CPML लाइसेंस (अनुमति के बिना गैर-वाणिज्यिक), Kokoro/MeloTTS की तुलना में धीमा

***

## Bark: गहन विवरण

### आर्किटेक्चर

* **GPT-शैली ट्रांसफॉर्मर** ऑडियो टोकन जनरेशन के लिए
* तीन-चरण प्रक्रिया: पाठ → सेमांटिक → कोर्स → फाइन टोकन
* वास्तविक ऑडियो कोडेक टोकन (EnCodec) उत्पन्न करता है

### Bark को क्या अनोखा बनाता है

Bark एकमात्र ओपन-सोर्स TTS है जो देशी रूप से उत्पन्न करता है:

* 🎵 भाषण के भीतर पृष्ठभूमि संगीत
* 😂 हँसी, आहें, गले की साफ़ी
* 🎭 एक ही जनरेशन में कई स्पीकर
* 🌍 मिश्रित-भाषा वाक्यांश

### मार्कअप भाषा

```python
from bark import generate_audio, SAMPLE_RATE
from scipy.io.wavfile import write

# अभिव्यक्तित्व के लिए विशेष टोकन
text = """
[clears throat] Good morning everyone. [laughs] 
Today's presentation will cover... 
[sighs deeply] ...actually quite a lot of ground.
[music: upbeat jazz] Let's get started!
"""

audio = generate_audio(text, history_prompt="v2/en_speaker_6")
write("output.wav", SAMPLE_RATE, audio)
```

### इंस्टॉलेशन

```bash
pip install git+https://github.com/suno-ai/bark.git
```

**कमज़ोरियाँ**: धीमा (3-स्टेज पाइपलाइन), रन के बीच असंगत, असली वॉइस क्लोनिंग नहीं

***

## Kokoro: गहन विवरण

### आर्किटेक्चर

* **82M पैरामीटर** StyleTTS2-आधारित मॉडल
* अत्यंत छोटा पर आश्चर्यजनक रूप से उच्च गुणवत्ता
* CPU और GPU पर तेज़ इन्फरेंस

### उपलब्ध आवाज़ें

```python
from kokoro import KPipeline

pipeline = KPipeline(lang_code='a')  # 'a' = American English, 'b' = British

# उपलब्ध आवाज़ें
voices = {
    'af_heart': 'American Female (warm)',
    'af_bella': 'American Female (bella)',
    'af_nicole': 'American Female (nicole)',
    'am_michael': 'American Male (michael)',
    'am_fenrir': 'American Male (fenrir)',
    'bf_emma': 'British Female (emma)',
    'bm_george': 'British Male (george)',
}

# विभिन्न आवाज़ों के साथ जेनरेट करें
for voice_name, description in voices.items():
    gen = pipeline("Hello, this is a test.", voice=voice_name)
    for _, _, audio in gen:
        print(f"Generated with {description}")
```

### स्ट्रीमिंग समर्थन

```python
import sounddevice as sd
from kokoro import KPipeline

pipeline = KPipeline(lang_code='a')

# जैसे-जैसे जनरेट होता है रीयल-टाइम में ऑडियो स्ट्रीम करें
text = "This is a very long text that will be streamed as it generates, providing low-latency audio output."

for _, _, audio in pipeline(text, voice='af_heart'):
    sd.play(audio, samplerate=24000)
    sd.wait()
```

**कमज़ोरियाँ**: केवल अंग्रेज़ी (प्रमुख रूप से), वॉइस क्लोनिंग नहीं, सीमित अभिव्यक्तित्व

***

## Fish Speech: गहन विवरण

### आर्किटेक्चर

* **VQGAN + भाषा मॉडल** आर्किटेक्चर
* 700K+ घंटे के ऑडियो पर प्रशिक्षण
* मजबूत बहुभाषी और एशियाई भाषा समर्थन

### इंस्टॉलेशन

```bash
pip install fish-speech

# या Docker के माध्यम से
docker run -d \
  --gpus all \
  -p 8080:8080 \
  fishaudio/fish-speech:latest \
  +api_server.workers_count=1
```

### Python API

```python
import httpx
import base64

# HTTP API के माध्यम से
with httpx.Client() as client:
    response = client.post(
        "http://localhost:8080/v1/tts",
        json={
            "text": "Hello from Fish Speech! This sounds very natural.",
            "format": "wav",
            "mp3_bitrate": 128,
            "normalize": True,
        }
    )
    
    with open("fish_output.wav", "wb") as f:
        f.write(response.content)
```

### वॉइस क्लोनिंग

```python
# संदर्भ अपलोड करें, वॉइस ID प्राप्त करें
with open("my_voice.wav", "rb") as f:
    response = httpx.post(
        "http://localhost:8080/v1/voices",
        files={"file": f},
        data={"text": "The text spoken in this recording."}
    )
    voice_id = response.json()["id"]

# क्लोन की गई आवाज़ का उपयोग करें
response = httpx.post(
    "http://localhost:8080/v1/tts",
    json={
        "text": "Now speaking in the cloned voice.",
        "reference_id": voice_id,
    }
)
```

**कमज़ोरियाँ**: CC BY-NC-SA लाइसेंस (गैर-वाणिज्यिक), सर्वश्रेष्ठ गुणवत्ता के लिए अधिक VRAM आवश्यक

***

## MeloTTS: गहन विवरण

### आर्किटेक्चर

* **VITS2-आधारित** आर्किटेक्चर
* बहु-उच्चारण अंग्रेज़ी पर प्रशिक्षण
* इन्फरेंस स्पीड के लिए अत्यधिक अनुकूलित

### उच्चारण और भाषाएँ

```python
from melo.api import TTS

# समर्थित भाषा कोड और उच्चारण
configs = {
    'EN':    ['EN-Default', 'EN-US', 'EN-BR', 'EN-INDIA', 'EN-AU'],
    'ES':    ['ES'],
    'FR':    ['FR'],
    'ZH':    ['ZH'],
    'JP':    ['JP'],
    'KR':    ['KR'],
}

model = TTS(language='EN', device='cuda')
speaker_ids = model.hps.data.spk2id

# ब्रिटिश उच्चारण के साथ जेनरेट करें
model.tts_to_file(
    "Cheerio! Fancy a spot of tea?",
    speaker_ids['EN-BR'],
    'british.wav'
)

# भारतीय उच्चारण के साथ जेनरेट करें
model.tts_to_file(
    "Namaste! Welcome to our company.",
    speaker_ids['EN-INDIA'],
    'indian.wav'
)
```

### बैच प्रोसेसिंग (बहुत तेज़)

```python
from melo.api import TTS
import time

model = TTS(language='EN', device='cuda')
sid = model.hps.data.spk2id['EN-Default']

texts = [
    "First sentence to synthesize.",
    "Second sentence goes here.",
    "Third and final sentence.",
]

start = time.time()
for i, text in enumerate(texts):
    model.tts_to_file(text, sid, f'output_{i}.wav')
elapsed = time.time() - start
print(f"Generated {len(texts)} files in {elapsed:.2f}s")
```

**कमज़ोरियाँ**: कोई वॉइस क्लोनिंग नहीं, उच्च गति पर रोबोटिक, सीमित अभिव्यक्तित्व

***

## Clore.ai पर तैनाती

### ऑल-इन-वन TTS सर्वर

```yaml
# docker-compose.yml — कई बैकएंड के साथ TTS सेवा
version: "3.8"

services:
  xtts:
    build:
      context: ./xtts
    ports:
      - "5002:5002"
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]
    volumes:
      - ./voices:/app/voices

  kokoro:
    image: ghcr.io/remsky/kokoro-fastapi-cpu:latest
    ports:
      - "8880:8880"
    # GPU की आवश्यकता नहीं!

  fish-speech:
    image: fishaudio/fish-speech:latest
    ports:
      - "8080:8080"
    command: +api_server.workers_count=2
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]
```

### VRAM आवश्यकताओं का सारांश

| मॉडल                                                               | CPU          | 4GB GPU | 8GB GPU | 16GB GPU |
| ------------------------------------------------------------------ | ------------ | ------- | ------- | -------- |
| XTTS v2                                                            | धीमा         | ✅       | ✅       | ✅        |
| Bark                                                               | बहुत धीमा    | ❌       | ✅       | ✅        |
| Kokoro                                                             | **तेज़**     | ✅       | ✅       | ✅        |
| 🆕 — WebUI के साथ 100+ LLMs को फाइन-ट्यून करें, LoRA/QLoRA, RLHF — | मध्यम        | ✅       | ✅       | ✅        |
| MeloTTS                                                            | **बहुत तेज** | ✅       | ✅       | ✅        |

***

## इंटीग्रेशन उदाहरण

### OpenAI-अनुकूल API (ड्रॉप-इन रिप्लेसमेंट के लिए)

```python
# कई TTS सर्वर OpenAI-अनुकूल एंडपॉइंट प्रदान करते हैं
# Kokoro FastAPI या समान का उपयोग करें

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8880/v1",  # आपका TTS सर्वर
    api_key="not-needed"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello world! This uses the OpenAI TTS API format.",
)
response.stream_to_file("output.mp3")
```

### LangChain इंटीग्रेशन

```python
# वॉइस एजेंट्स के लिए LangChain के साथ TTS का उपयोग
from langchain_community.tools import Tool
from TTS.api import TTS

tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to("cuda")

def speak(text: str) -> str:
    tts.tts_to_file(text=text, language="en", file_path="/tmp/response.wav")
    return "/tmp/response.wav"

tts_tool = Tool(
    name="text_to_speech",
    func=speak,
    description="टेक्स्ट को स्पीच ऑडियो फ़ाइल में बदलें"
)
```

***

## कब किसे उपयोग करें

### निर्णय मार्गदर्शिका

```
क्या आप छोटे क्लिप से वॉइस क्लोनिंग चाहते हैं?
  → XTTS v2 (3s संदर्भ) या Fish Speech (10s संदर्भ)

क्या आपको रियल-टाइम/सबसे तेज़ जेनरेशन चाहिए?
  → MeloTTS (CPU-अनुकूल) या Kokoro

क्या आपको अभिव्यक्तिपूर्ण भाषण चाहिए (हँसी, भावना)?
  → Bark (अद्वितीय गैर-भाषण ध्वनियाँ) या XTTS v2

क्या आपको चीनी/जापानी/कोरियाई चाहिए?
  → Fish Speech (सर्वश्रेष्ठ CJK) या MeloTTS

केवळ अंग्रेज़ी, उच्चतम गुणवत्ता?
  → Kokoro (सर्वश्रेष्ठ आकार/गुणवत्ता अनुपात)

क्या 17+ भाषाओं की आवश्यकता है?
  → XTTS v2

वाणिज्यिक उपयोग की अनुमति है?
  → Kokoro (Apache) या MeloTTS (MIT) या Bark (MIT)

गैर-व्यावसायिक शोध?
  → कोई भी (XTTS v2 CPML या Fish Speech CC BY-NC-SA)
```

### आवेदन प्रकार के अनुसार

| आवेदन              | सर्वोत्तम विकल्प                                                   | क्यों                       |
| ------------------ | ------------------------------------------------------------------ | --------------------------- |
| ऑडियोबुक जनरेशन    | XTTS v2                                                            | प्राकृतिक, सुसंगत आवाज़     |
| रियल-टाइम चैटबोट   | MeloTTS या Kokoro                                                  | सबसे तेज़ अनुमान/इन्फरेंस   |
| पॉडकास्ट ऑटोमेशन   | XTTS v2 या Fish Speech                                             | सर्वोत्तम क्लोनिंग          |
| गेम पात्र          | Bark                                                               | भावनात्मक, विविध आवाज़ें    |
| कस्टमर सर्विस      | MeloTTS                                                            | स्केलेबल, तेज़              |
| पहुँचयोग्यता उपकरण | Kokoro                                                             | हल्का, मुफ्त                |
| वॉइस डबिंग         | 🆕 — WebUI के साथ 100+ LLMs को फाइन-ट्यून करें, LoRA/QLoRA, RLHF — | सर्वोत्तम क्लोनिंग गुणवत्ता |
| लॉन्ग-फॉर्म नैरेशन | XTTS v2                                                            | सुसंगत गुणवत्ता             |

***

## लाइसेंस सारांश

{% hint style="warning" %}
**वाणिज्यिक उपयोग के लिए लाइसेंस महत्वपूर्ण है!** उत्पादन में डेप्लॉय करने से पहले हमेशा जाँच करें।
{% endhint %}

| मॉडल                                                               | लाइसेंस                   | वाणिज्यिक? | नोट्स                           |
| ------------------------------------------------------------------ | ------------------------- | ---------- | ------------------------------- |
| XTTS v2                                                            | Coqui पब्लिक मॉडल लाइसेंस | ❌ मुफ़्त   | वाणिज्यिक के लिए लाइसेंस आवश्यक |
| Bark                                                               | MIT                       | ✅          | सभी उपयोग के लिए मुफ्त          |
| Kokoro                                                             | Apache 2.0                | ✅          | सभी उपयोग के लिए मुफ्त          |
| 🆕 — WebUI के साथ 100+ LLMs को फाइन-ट्यून करें, LoRA/QLoRA, RLHF — | CC BY-NC-SA 4.0           | ❌          | केवल गैर-व्यावसायिक             |
| MeloTTS                                                            | MIT                       | ✅          | सभी उपयोग के लिए मुफ्त          |

**वाणिज्यिक उपयोग के लिए पूरी तरह खुला**: Bark, Kokoro, MeloTTS

***

## Clore.ai पर लागत

```
Kokoro/MeloTTS (CPU या सस्ता GPU):
  सबसे सस्ता सर्वर लगभग $0.05/घंटा → लगभग $36/माह
  CPU पर 100+ समवर्ती अनुरोध संभाल सकता है

XTTS v2 (RTX 3080):
  ≈$0.30/घंटा → ≈$220/माह
  ≈500 अनुरोध/घंटा क्षमता

Fish Speech (RTX 4090):
  ≈$0.60/घंटा → ≈$440/माह  
  ≈1000 अनुरोध/घंटा क्षमता
```

***

## उपयोगी लिंक

* [Coqui TTS (XTTS)](https://github.com/coqui-ai/TTS) — 35K+ स्टार्स
* [Bark GitHub](https://github.com/suno-ai/bark) — 38K+ स्टार्स
* [Kokoro GitHub](https://github.com/hexgrad/kokoro) — 12K+ स्टार्स
* [Fish Speech GitHub](https://github.com/fishaudio/fish-speech) — 14K+ स्टार्स
* [MeloTTS GitHub](https://github.com/myshell-ai/MeloTTS) — 15K+ स्टार्स
* [TTS एरीना लीडरबोर्ड](https://huggingface.co/spaces/TTS-AGI/TTS-Arena)

***

## सारांश

| मॉडल                                                                   | कब उपयोग करें                                                  |
| ---------------------------------------------------------------------- | -------------------------------------------------------------- |
| **XTTS v2**                                                            | सर्वोत्तम वॉइस क्लोनिंग (3s संदर्भ), 17 भाषाएँ, गैर-व्यावसायिक |
| **Bark**                                                               | भावनात्मक, हँसी/इफेक्ट्स, MIT लाइसेंस                          |
| **Kokoro**                                                             | तेज़, उच्च गुणवत्ता अंग्रेज़ी, Apache लाइसेंस                  |
| **🆕 — WebUI के साथ 100+ LLMs को फाइन-ट्यून करें, LoRA/QLoRA, RLHF —** | सर्वोत्तम CJK, प्रोडक्शन क्लोनिंग, गैर-व्यावसायिक              |
| **MeloTTS**                                                            | सबसे तेज़, रियल-टाइम, बहु-लहजा अंग्रेज़ी, MIT लाइसेंस          |

अधिकांश उत्पादन Clore.ai तैनाती के लिए:

* **रियल-टाइम वॉइस एप्स** → MeloTTS या Kokoro (मुफ्त, तेज़, MIT)
* **वॉइस क्लोनिंग सेवा** → XTTS v2 या Fish Speech (लाइसेंस जाँचें)
* **भावनात्मक नैरेशन** → Bark या XTTS v2

***

## Clore.ai GPU सिफारिशें

| उपयोग केस          | सिफारिश की गई GPU | Clore.ai पर अनुमानित लागत |
| ------------------ | ----------------- | ------------------------- |
| डेवलपमेंट/टेस्टिंग | RTX 3090 (24GB)   | \~$0.12/gpu/hr            |
| प्रोडक्शन          | RTX 4090 (24GB)   | \~$0.70/gpu/hr            |
| बड़े पैमाने पर     | A100 80GB         | \~$1.20/gpu/hr            |

> 💡 इस गाइड के सभी उदाहरण तैनात किए जा सकते हैं [Clore.ai](https://clore.ai/marketplace) GPU सर्वरों पर। उपलब्ध GPUs ब्राउज़ करें और घंटे के हिसाब से किराए पर लें — कोई प्रतिबद्धता नहीं, पूर्ण रूट एक्सेस।
