> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-hi/audio-and-voice/moss-tts.md).

# MOSS-TTS (केवल CPU, 100M)

MOSS-TTS एक ओपन-सोर्स स्पीच जनरेशन परिवार है **OpenMOSS** (शंघाई इनोवेशन इंस्टिट्यूशन, के सहयोग से **Fudan NLP** और **MOSI.AI**द्वारा, प्रो. ज़िपेंग किउ के नेतृत्व में)। प्रमुख **MOSS-TTS-Nano** केवल **100M पैरामीटर**का है, और एक **4-कोर CPU पर बिना GPU के रियल-टाइम चलता है**आउटपुट देता है **48 kHz स्टीरियो**, और **20 भाषाओं** को ज़ीरो-शॉट वॉइस क्लोनिंग के साथ सपोर्ट करता है। पूरा परिवार बहु-स्पीकर संवाद, वॉइस डिज़ाइन, और ध्वनि-प्रभाव निर्माण के लिए 8B तक स्केल करता है।

{% hint style="info" %}
**रिलीज़ हुआ:** 10 अप्रैल, 2026 (Nano) · ONNX CPU बिल्ड 17 अप्रैल, 2026 · **लाइसेंस:** Apache 2.0
{% endhint %}

यदि Kokoro 82M-पैरामीटर वाले पश्चिमी-अंग्रेज़ी निच पर कब्ज़ा रखता है, तो MOSS-TTS-Nano **CPU-प्रथम बहुभाषी** निच पर कब्ज़ा रखता है: वही छोटे-मॉडल वाली सोच, लेकिन स्टीरियो 48 kHz, 20 भाषाएँ, वॉइस क्लोनिंग, और torch-रहित ONNX/GGUF पथ के साथ। किसी भी व्यक्ति के लिए जो GPU के लिए भुगतान किए बिना TTS को तैनात करना चाहता है — यही मॉडल है।

### MOSS-TTS परिवार

| मॉडल                           | आकार            | VRAM              | के लिए सर्वोत्तम                          |
| ------------------------------ | --------------- | ----------------- | ----------------------------------------- |
| **MOSS-TTS-Nano-100M**         | 100M            | 0 GB (CPU, 4 कोर) | रियल-टाइम, एज, IVR, ऑन-डिवाइस             |
| **MOSS-TTS-Nano-100M-ONNX**    | 100M            | 0 GB (CPU)        | torch-रहित प्रोडक्शन सर्विंग              |
| **MOSS-TTS-GGUF**              | 100M (Q4\_K\_M) | 0 GB (CPU)        | llama.cpp-शैली की तैनाती                  |
| **MOSS-TTS-Local-Transformer** | 1.7B            | 4 GB              | हल्का GPU, मजबूत वस्तुनिष्ठ गुणवत्ता      |
| **MOSS-TTS-Realtime**          | 1.7B            | 4 GB              | मल्टी-टर्न वॉइस एजेंट, 180 ms TTFB        |
| **MOSS-VoiceGenerator**        | 1.7B            | 4 GB              | टेक्स्ट प्रॉम्प्ट से वॉइस डिज़ाइन         |
| **MOSS-TTSD-v1.0**             | 8B              | 8 GB              | बहु-स्पीकर संवाद, लंबे पॉडकास्ट           |
| **MOSS-SoundEffect**           | 8B              | 8 GB              | अवधि नियंत्रण के साथ ध्वनि-प्रभाव निर्माण |

### मुख्य विनिर्देश

| विनिर्देश         | मान                                                                                                                             |
| ----------------- | ------------------------------------------------------------------------------------------------------------------------------- |
| **डेवलपर**        | OpenMOSS टीम · MOSI.AI · Fudan NLP Lab                                                                                          |
| **आर्किटेक्चर**   | ऑटोरिग्रेसिव (ऑडियो टोकनाइज़र + LLM)                                                                                            |
| **सैंपल दर**      | 48 kHz, स्टीरियो                                                                                                                |
| **भाषाएँ**        | 20 (zh, en, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr, +1)                                             |
| **वॉइस क्लोनिंग** | \~3s संदर्भ से ज़ीरो-शॉट                                                                                                        |
| **स्ट्रीमिंग**    | हाँ — CPU पर चंक्ड डिकोड                                                                                                        |
| **लाइसेंस**       | Apache 2.0                                                                                                                      |
| **HuggingFace**   | [OpenMOSS-Team](https://huggingface.co/OpenMOSS-Team)                                                                           |
| **GitHub**        | [OpenMOSS/MOSS-TTS-Nano](https://github.com/OpenMOSS/MOSS-TTS-Nano) · [OpenMOSS/MOSS-TTS](https://github.com/OpenMOSS/MOSS-TTS) |

### MOSS-TTS क्यों?

* **ज़ीरो-GPU तैनाती** — Nano 4 CPU कोर पर चलता है, CUDA नहीं, Triton नहीं
* **48 kHz स्टीरियो आउटपुट** — प्रसारण-स्तरीय गुणवत्ता, 100M से कम मॉडल में दुर्लभ
* **20 भाषाओं** — Kokoro (\~5) की तुलना में समान आकार में अधिक कवरेज
* **ज़ीरो-शॉट वॉइस क्लोनिंग** \~3s संदर्भ ऑडियो से
* **torch-रहित ONNX/GGUF पथ** — 200 MB बाइनरी के साथ शिप करें
* **परिवार स्केल करता है** — Nano से 8B TTSD तक वही टोकनाइज़र/API
* **Apache 2.0** — वाणिज्यिक उपयोग, कोई प्रतिबंध नहीं
* **गंभीर शोध से** — Fudan NLP + MOSI.AI, कोई शौकिया परियोजना नहीं

## आवश्यकताएँ

| घटक    | न्यूनतम (Nano, CPU)     | अनुशंसित (Nano, CPU) | पूरा परिवार (GPU)       |
| ------ | ----------------------- | -------------------- | ----------------------- |
| CPU    | 4 कोर (x86\_64 / ARM64) | 8 कोर                | 8 कोर                   |
| RAM    | 4 GB                    | 8 GB                 | 16 GB                   |
| GPU    | — (आवश्यक नहीं)         | — (वैकल्पिक)         | RTX 3060 12 GB+         |
| VRAM   | 0 GB                    | 0 GB                 | 4–8 GB                  |
| डिस्क  | 1 GB                    | 2 GB                 | 10 GB (8B + निर्भरताएँ) |
| Python | 3.12                    | 3.12                 | 3.12                    |

{% hint style="success" %}
**Clore.ai टिप:** Nano को सचमुच GPU की आवश्यकता नहीं है। यदि आपके पास अन्य काम के लिए पहले से Clore बॉक्स है, तो TTS मुफ़्त है। यदि आप *चाहते हैं* बैच थ्रूपुट के लिए GPU या 1.7B/8B वैरिएंट चलाने के लिए, एक **RTX 3060 12GB (\~$0.10–0.30/दिन)** ज़रूरत से ज़्यादा है।
{% endhint %}

## विकल्प A — Python इंस्टॉल + त्वरित inference

```bash
conda create -n moss-tts-nano python=3.12 -y
conda activate moss-tts-nano

git clone https://github.com/OpenMOSS/MOSS-TTS-Nano.git
cd MOSS-TTS-Nano
pip install -r requirements.txt
pip install -e .

# यदि pip पर pynini टूटे, तो conda-forge का उपयोग करें:
conda install -c conda-forge pynini=2.1.6.post1 -y
```

संदर्भ ऑडियो + लक्ष्य टेक्स्ट से inference:

```bash
python infer.py \
  --prompt-audio-path assets/audio/en_1.wav \
  --text "Clore.ai में आपका स्वागत है — विकेंद्रीकृत GPU मार्केटप्लेस।"
# आउटपुट: generated_audio/infer_output.wav  (48 kHz स्टीरियो)
```

या CLI एंट्रीपॉइंट के माध्यम से:

```bash
moss-tts-nano generate \
  --prompt-speech ref.wav \
  --text "CPU पर चल रहे MOSS-TTS Nano से नमस्ते।"
```

वेब डेमो (Gradio):

```bash
python app.py
# → http://127.0.0.1:18083
```

## विकल्प B — Docker (CPU और GPU)

**केवल CPU** (Nano, \~1 GB इमेज):

```dockerfile
FROM python:3.12-slim
RUN apt-get update && apt-get install -y git build-essential \
    && rm -rf /var/lib/apt/lists/*
WORKDIR /app
RUN git clone https://github.com/OpenMOSS/MOSS-TTS-Nano.git . \
    && pip install -r requirements.txt && pip install -e .
EXPOSE 18083
CMD ["python", "app.py"]
```

```bash
docker build -t moss-tts-nano-cpu .
docker run --rm -p 18083:18083 moss-tts-nano-cpu
```

**GPU वैरिएंट** (Realtime / TTSD / SoundEffect के लिए):

```bash
docker run --gpus all -p 18083:18083 \
  pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime \
  bash -c "git clone https://github.com/OpenMOSS/MOSS-TTS.git /app \
           && cd /app \
           && pip install --extra-index-url https://download.pytorch.org/whl/cu128 -e '.[torch-runtime]' \
           && python app.py"
```

## विकल्प C — ज़ीरो-शॉट वॉइस क्लोनिंग (3s संदर्भ)

MOSS-TTS-Nano एक छोटे संदर्भ क्लिप से आवाज़ क्लोन करता है और स्वचालित chunking के माध्यम से लंबी-रूप synthesis को संभालता है।

```python
from moss_tts_nano import MossTTSNano
import soundfile as sf

model = MossTTSNano.from_pretrained("OpenMOSS-Team/MOSS-TTS-Nano-100M")

# किसी भी 3–10s के साफ़ क्लिप से आवाज़ क्लोन करें
audio, sr = model.synthesize(
    text="यह मेरी क्लोन की हुई आवाज़ है जो Clore.ai ऑडियोबुक अध्याय सुनाती है।",
    prompt_audio_path="speaker_ref_3s.wav",
    language="en",
)
sf.write("cloned.wav", audio, sr)  # 48 kHz स्टीरियो
```

**गुणवत्ता टिप्स (XTTS प्लेबुक से पोर्ट किए गए — वही सिद्धांत लागू होते हैं):**

* 3–10s का उपयोग करें **साफ़** संदर्भ (कोई बैकग्राउंड संगीत नहीं, कोई रूम रिवर्ब नहीं)
* जब संभव हो, संदर्भ और लक्ष्य टेक्स्ट की भाषा मिलाएँ
* पास करने से पहले normalize करें और silence trim करें (`librosa.effects.trim`)
* सुसंगत लंबे-रूप narration के लिए, कॉल्स के बीच वही संदर्भ पुनः उपयोग करें

## विकल्प D — llama.cpp-audio / torch-रहित ONNX पर GGUF

एज बॉक्स, मोबाइल बैकएंड, या कहीं भी जहाँ आप PyTorch नहीं चाहते:

```bash
# torch-रहित extras के साथ मुख्य repo क्लोन करें
git clone https://github.com/OpenMOSS/MOSS-TTS.git
cd MOSS-TTS
pip install -e ".[llama-cpp-onnx]"

# GGUF quantized weights (Q4_K_M) डाउनलोड करें
huggingface-cli download OpenMOSS-Team/MOSS-TTS-GGUF --local-dir weights/

# या शुद्ध ONNX बिल्ड (बिल्कुल torch नहीं)
huggingface-cli download OpenMOSS-Team/MOSS-TTS-Nano-100M-ONNX --local-dir weights-onnx/
```

यह पथ llama.cpp-संगत टूलिंग पर चलता है — Raspberry Pi, Android, या serverless functions के लिए शानदार, जहाँ 200 MB बाइनरी महत्वपूर्ण है।

## Clore.ai GPU अनुशंसाएँ

**Nano के लिए आपको GPU की आवश्यकता नहीं है।** यही पूरी बात है। लेकिन यदि आप बैच-जनरेशन करना चाहते हैं या बड़े siblings चलाना चाहते हैं:

| GPU                   | VRAM  | फिट बैठता है                        | Clore मूल्य (लगभग) |
| --------------------- | ----- | ----------------------------------- | ------------------ |
| **केवल CPU instance** | —     | Nano, Nano-ONNX, GGUF               | से **$0.01/घंटा**  |
| RTX 3060 12GB         | 12 GB | Nano + Local-Transformer + Realtime | $0.10/दिन से       |
| RTX 3090 24GB         | 24 GB | पूरा TTSD-v1.0 (8B), बैच सर्विंग    | $0.30/दिन से       |
| RTX 4090 24GB         | 24 GB | TTSD + SoundEffect एक साथ           | $0.50/दिन से       |

{% hint style="success" %}
90% प्रोडक्शन TTS वर्कलोड — वॉइस एजेंट, IVR, narration — के लिए एक **केवल CPU वाला Clore.ai बॉक्स सचमुच सबसे सस्ता व्यवहार्य डिप्लॉयमेंट है**. इसे किराये पर लें, MOSS-TTS-Nano चलाएँ, GPU बिलों की चिंता छोड़ दें।
{% endhint %}

## उपयोग के मामले

* **ऑडियोबुक्स** — लंबे-रूप narration के साथ सुसंगत क्लोन की हुई आवाज़, स्वचालित chunking
* **वॉइस एजेंट** — वार्तालापी AI के लिए Realtime वैरिएंट पर सब-सेकंड TTFB
* **IVR / फोन सिस्टम** — केवल CPU डिप्लॉय, 48 kHz स्टीरियो, 20 भाषाएँ
* **गेम NPCs** — गेम क्लाइंट के अंदर शिप करने के लिए पर्याप्त हल्का, प्रत्येक पात्र के लिए वॉइस डिज़ाइन
* **डबिंग** — लोकलाइज़ेशन पाइपलाइनों के लिए बहुभाषी क्लोनिंग
* **पॉडकास्ट जनरेशन** — MOSS-TTSD-v1.0 मूल रूप से बहु-स्पीकर संवाद संभालता है
* **ध्वनि प्रभाव** — MOSS-SoundEffect पाइपलाइन में अवधि-नियंत्रित FX जोड़ता है

## बेंचमार्क / गुणवत्ता

* **MOSS-TTSD-v1.0** व्यक्तिपरक बहु-स्पीकर संवाद मूल्यांकनों में Doubao और Gemini 2.5-pro से बेहतर प्रदर्शन किया
* **Nano** रियल-टाइम फैक्टर प्रदान करता है **4 CPU कोर पर < 1.0** (अर्थात् प्लेबैक से तेज़)
* **Realtime** वैरिएंट रिपोर्ट करता है **\~180 ms time-to-first-byte** वार्तालापी उपयोग के लिए
* स्टीरियो 48 kHz आउटपुट इस पैरामीटर बजट पर 24 kHz मोनो प्रतिस्पर्धियों की तुलना में एक स्पष्ट उन्नति है

## समस्या-समाधान

| समस्या                                         | समाधान                                                                                              |
| ---------------------------------------------- | --------------------------------------------------------------------------------------------------- |
| `pynini` pip के माध्यम से इंस्टॉल विफल होता है | `conda install -c conda-forge pynini=2.1.6.post1 -y` फिर WeTextProcessing पुनः इंस्टॉल करें         |
| CPU पर ऑडियो कटा-फटा                           | 4+ भौतिक कोर सुनिश्चित करें; SMT/HT oversubscription अक्षम करें; ONNX बिल्ड का उपयोग करें           |
| क्लोन की हुई आवाज़ सही नहीं लगती               | संदर्भ 3–10s का, साफ़, एकल-प्रोसेसर, भाषा-मिलान वाला होना चाहिए                                     |
| TTSD-v1.0 पर OOM                               | FP16 का उपयोग करें (`model.half()`) या 1.7B Local-Transformer पर वापस जाएँ                          |
| मॉडल डाउनलोड अटक जाता है                       | सेट करें `HF_HUB_ENABLE_HF_TRANSFER=1` और पुनः प्रयास करें                                          |
| पहली बार चलाना धीमा                            | पहला inference kernels compile करता है / \~400 MB weights डाउनलोड करता है — बाद के रन तेज़ होते हैं |
| Torch अन्य मॉडलों के साथ संघर्ष करता है        | का उपयोग करें `[llama-cpp-onnx]` torch-रहित वातावरण के लिए extras                                   |

## अगले कदम

* [Kokoro TTS](/guides/guides_v2-hi/audio-and-voice/kokoro-tts.md) — 82M अंग्रेज़ी-प्रथम विकल्प, यदि आपको बहुभाषी की आवश्यकता नहीं है
* [Voxtral TTS](/guides/guides_v2-hi/audio-and-voice/voxtral-tts.md) — 4B Mistral मॉडल, 9 भाषाएँ, GPU-आवश्यक लेकिन अधिक क्षमता
* [XTTS (Coqui)](/guides/guides_v2-hi/audio-and-voice/xtts-coqui.md) — 17-भाषा वॉइस क्लोनिंग, केवल GPU, बड़ा
* [Whisper Transcription](/guides/guides_v2-hi/audio-and-voice/whisper-transcription.md) — पूर्ण वॉइस पाइपलाइनों के लिए MOSS-TTS को Whisper के साथ जोड़ें
* [Clore.ai Marketplace पर GPU (या CPU) किराये पर लें](https://clore.ai/marketplace)

***

*अंतिम अपडेट: 20 अप्रैल, 2026*


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-hi/audio-and-voice/moss-tts.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
