MeloTTS

Clore.ai GPUs पर तेज़ इनफेरेंस के साथ उच्च-गुणवत्ता बहुभाषी TTS MeloTTS चलाएँ

MeloTTS एक उच्च-गुणवत्ता, बहुभाषीय टेक्स्ट-टू-स्पीच पुस्तकालय है जिसे विकसित किया गया है MyShell AI। यह कई भाषाओं और अंग्रेज़ी उच्चारणों में तेज़, प्राकृतिक-शब्दों जैसा स्पीच सिंथेसिस प्रदान करता है, जिसे अनुसंधान और उत्पादन डिप्लॉयमेंट दोनों के लिए डिज़ाइन किया गया है। MeloTTS गति के लिए अनुकूलित है — यह CPU पर भी वास्तविक-समय से काफी तेज़ी से स्पीच जेनरेट कर सकता है — जबकि व्यावसायिक उपयोग के लिए उपयुक्त उच्च ऑडियो गुणवत्ता बनाए रखता है।

MeloTTS वर्तमान में निम्नलिखित का समर्थन करता है:

  • अंग्रेज़ी (अमेरिकी, ब्रिटिश, भारतीय, ऑस्ट्रेलियाई, डिफ़ॉल्ट)

  • चीनी (सरलीकृत और मिश्रित चीनी-अंग्रेज़ी)

  • जापानी

  • कोरियाई

  • स्पैनिश

  • फ्रेंच

मुख्य हाइलाइट्स:

  • MLflow, Triton Inference Server, BentoML, ClearML तेज़ अनुमान (फास्ट इनफरेंस) — CPU पर वास्तविक-समय से तेज़, GPU पर बेहद तेज़

  • 🌍 बहुभाषीय — अंग्रेज़ी के लिए उच्चारण वेरिएंट सहित 6 भाषाएँ

  • 🐳 Docker-रेडी — आधिकारिक Docker इमेज उपलब्ध

  • 🔌 REST API — किसी भी एप्लिकेशन में एकीकृत करने के लिए HTTP API

  • 📱 उत्पादन-ग्रेड — MyShell के ग्राहक उत्पादों में उपयोग किया गया

circle-check

सर्वर आवश्यकताएँ

पैरामीटर
न्यूनतम
अनुशंसित

GPU

NVIDIA GTX 1080 (8 GB)

NVIDIA RTX 3090 (24 GB)

VRAM

4 GB

8–16 GB

RAM

8 GB

16 GB

CPU

4 कोर

8 कोर

डिस्क

10 GB

20 GB

ऑपरेटिंग सिस्टम

Ubuntu 20.04+

Ubuntu 22.04

CUDA

11.7+ (वैकल्पिक)

12.1+

Python

3.8+

3.10

पोर्ट्स

22, 8888

22, 8888

circle-info

MeloTTS अनूठी रूप से कुशल है — यह एकल अनुरोधों के लिए CPU पर अच्छी तरह चलती है और बैच प्रोसेसिंग के लिए GPU से बहुत लाभ प्राप्त करती है। यहां तक कि एक बजट GPU भी थ्रूपुट को नाटकीय रूप से दोगुना कर देता है।


CLORE.AI पर त्वरित तैनाती

circle-exclamation

1. एक उपयुक्त सर्वर खोजें

जाएँ CLORE.AI मार्केटप्लेसarrow-up-right और फ़िल्टर करें:

  • VRAM: ≥ 4 GB (या कम मात्रा के लिए केवल CPU)

  • GPU: कोई भी NVIDIA GPU (GTX 1080+, RTX सीरीज़, A100)

  • डिस्क: ≥ 10 GB

2. अपनी तैनाती कॉन्फ़िगर करें

Docker इमेज:

पोर्ट मैपिंग्स:

पर्यावरण चर:

स्टार्टअप कमांड (सर्वर में SSH के बाद चलाएँ):

3. API तक पहुँचें

यहाँ परीक्षण करें:


चरण-दर-चरण सेटअप

चरण 1: अपने सर्वर में SSH करें

चरण 2: कंटेनर बनाएँ और चलाएँ

चूँकि MeloTTS का कोई प्री-बिल्ट Docker Hub इमेज नहीं है, NVIDIA CUDA बेस का उपयोग करें और स्रोत से MeloTTS इंस्टॉल करें:

वैकल्पिक रूप से, स्रोत से एक कस्टम Docker इमेज बनाएँ:

चरण 3: सेवा चल रही है क्या सत्यापित करें

चरण 4: वैकल्पिक — Jupyter Notebook इंटरफ़ेस

एक्सेस करें इस पर: http://<server-ip>:8888

चरण 5: pip से इंस्टॉल करें (Docker के बिना)


उपयोग के उदाहरण

उदाहरण 1: बुनियादी अंग्रेज़ी TTS (Python)


उदाहरण 2: बहुभाषीय TTS


उदाहरण 3: REST API उपयोग


उदाहरण 4: उच्च-गति बैच प्रोसेसिंग


उदाहरण 5: मिश्रित चीनी-अंग्रेज़ी TTS


कॉन्फ़िगरेशन

Docker Compose सेटअप

चूँकि MeloTTS का कोई आधिकारिक Docker Hub इमेज नहीं है, स्टार्टअप पर NVIDIA CUDA बेस इमेज का उपयोग करें और स्रोत से MeloTTS इंस्टॉल करें:

API कॉन्फ़िगरेशन विकल्प

पैरामीटर
डिफ़ॉल्ट
विवरण

--host

127.0.0.1

बाँधने वाला पता (इस्तेमाल करें 0.0.0.0 सार्वजनिक के लिए)

--port

8888

API सर्वर पोर्ट

--workers

1

वर्कर प्रक्रियाओं की संख्या

--device

auto

cuda, cpuUSDT auto

समर्थित भाषाएँ और स्पीकर्स

भाषा
कोड
स्पीकर आईडी

अंग्रेज़ी

EN

EN-Default, EN-US, EN-GB, EN-India, EN-Australia, EN-Brazil

चीनी

ZH

ZH

जापानी

JP

JP

कोरियाई

KR

KR

स्पैनिश

SP

SP

फ्रेंच

FR

FR


प्रदर्शन सुझाव

1. GPU बनाम CPU बेंचमार्क

MeloTTS प्रदर्शन (RTF = रियल-टाइम फैक्टर, कम बेहतर):

डिवाइस
RTF
नोट्स

CPU (8 कोर)

~0.3x

तेज़, कम लोड के लिए अच्छा

RTX 3080

~0.05x

रियल-टाइम से 20x तेज़

RTX 4090

~0.02x

रियल-टाइम से 50x तेज़

A100

~0.01x

रियल-टाइम से 100x तेज़

2. थ्रूपुट के लिए अनुकूलित करें

3. मॉडल को प्री-वॉर्म करें

4. ऑडियो गुणवत्ता बनाम गति समायोजित करें

5. मेमोरी दक्षता


समस्या निवारण

समस्या: espeak-ng नहीं मिला

समस्या: NLTK डेटा गायब

समस्या: पोर्ट 8888 Jupyter से टकरा रहा है

MeloTTS डिफ़ॉल्ट रूप से पोर्ट 8888 उपयोग करता है, जो Jupyter Notebook के साथ टकराता है। समाधान:

समस्या: चीनी टेक्स्ट सही तरीके से रेंडर नहीं हो रहा है

समस्या: Docker इमेज पुल विफल हो रही है

समस्या: GPU पर इनफरेंस धीमा है


Clore.ai GPU सिफारिशें

MeloTTS हल्का है — यह कम वॉल्यूम के लिए CPU पर अच्छी तरह चलता है और GPU कंप्यूट के साथ रैखिक रूप से स्केल करता है। आपको महंगे हार्डवेयर की आवश्यकता नहीं है।

GPU
VRAM
Clore.ai कीमत
RTF (रियल-टाइम फैक्टर)
क्षमता

केवल CPU

आणविक गतिशीलता

~$0.02/घं

~0.3×

~3 req/min

RTX 3090

24 GB

~$0.12/घंटा

~0.02× (50× रियल-टाइम)

~100 req/min

RTX 4090

24 GB

~$0.70/घंटा

~0.01× (100× रियल-टाइम)

~200 req/min

A100 40GB

40 GB

~$1.20/घंटा

~0.005× (200× रियल-टाइम)

~400 req/min

circle-info

TTS वर्कलोड के लिए सर्वोत्तम मूल्य: RTX 3090 पर $0.12/घं पर 50× रियल-टाइम TTS गति प्रदान करता है। सैकड़ों उपयोगकर्ताओं को सेवा देने वाले उत्पादन API के लिए यह अधिक than पर्याप्त है। केवल CPU वाले उदाहरण ($0.02/घं) विकास और कम-ट्रैफ़िक डिप्लॉयमेंट के लिए ठीक काम करते हैं।

उत्पादन सिफारिश: 10–50 समकालिक उपयोगकर्ताओं को सेवा देने वाले बहुभाषीय TTS API के लिए, RTX 3090 सबसे उपयुक्त है। महंगे A100 पर अपग्रेड करने की बजाय क्षैतिज रूप से स्केल करें (कई उदाहरण) — MeloTTS उच्च-स्तरीय GPUs से समानुपातिक लाभ नहीं लेता।


लिंक

Last updated

Was this helpful?