Fish Speech

Clore.ai GPUs पर Fish Speech बहुभाषी TTS और शून्य-शॉट वॉइस क्लोनिंग चलाएँ

Fish Speech एक अत्याधुनिक बहुभाषी टेक्स्ट-टू-स्पीच (TTS) सिस्टम है जिसमें जीरो-शॉट वॉइस क्लोनिंग क्षमताएँ हैं। 15,000 से अधिक GitHub स्टार्स के साथ, यह एक ही मॉडल से अंग्रेजी, चीनी, जापानी, कोरियाई, फ्रेंच, जर्मन, अरबी, स्पेनिश और अधिक का समर्थन करता है। केवल 10–15 सेकंड के संदर्भ ऑडियो का उपयोग करके, Fish Speech किसी भी आवाज़ को असाधारण निष्ठा के साथ क्लोन कर सकता है, जिससे यह ऑडियोबुक उत्पादन, डबिंग, वर्चुअल असिस्टेंट और बड़े पैमाने पर कंटेंट क्रिएशन के लिए आदर्श है।

Fish Speech एक ट्रांसफॉर्मर-आधारित आर्किटेक्चर और VQGAN वोकोडर का उपयोग करता है, जिससे मानक TTS बेंचमार्क्स पर लगभग मानव-समान प्राकृतिकता स्कोर प्राप्त होते हैं। WebUI (Gradio) इसे बिना एक भी कोड लाइन लिखे सुलभ बनाता है, जबकि REST API उत्पादन पाइपलाइनों में सहज एकीकरण सक्षम करता है।

circle-check

सर्वर आवश्यकताएँ

पैरामीटर
न्यूनतम
अनुशंसित

GPU

NVIDIA RTX 3080 (10 GB)

NVIDIA RTX 4090 (24 GB)

VRAM

8 GB

16–24 GB

RAM

16 GB

32 GB

CPU

4 कोर

8+ कोर

डिस्क

20 GB

40 GB

ऑपरेटिंग सिस्टम

Ubuntu 20.04+

Ubuntu 22.04

CUDA

11.8+

12.1+

पोर्ट्स

22, 7860

22, 7860

circle-info

Fish Speech मध्यम-श्रेणी के GPUs (RTX 3080/3090) पर कुशलतापूर्वक चलता है। बैच इन्फरेंस या कई समवर्ती उपयोगकर्ताओं की सेवा के लिए, RTX 4090 या A100 की सिफारिश की जाती है।


CLORE.AI पर त्वरित तैनाती

Fish Speech चलाने का सबसे तेज़ तरीका आधिकारिक Docker इमेज को सीधे Docker Hub से प्राप्त करना है।

1. एक उपयुक्त सर्वर खोजें

जाएँ CLORE.AI मार्केटप्लेसarrow-up-right और फ़िल्टर करें:

  • VRAM: ≥ 8 GB

  • GPU: RTX 3080, 3090, 4080, 4090, A100, H100

  • डिस्क: ≥ 20 GB

2. अपनी तैनाती कॉन्फ़िगर करें

CLORE.AI ऑर्डर फॉर्म में निम्न सेट करें:

Docker इमेज:

पोर्ट मैपिंग्स:

पर्यावरण चर:

स्टार्टअप कमांड (वैकल्पिक — WebUI ऑटो-स्टार्ट करता है):

3. इंटरफ़ेस तक पहुँचें

एक बार डिप्लॉय होने के बाद, अपना ब्राउज़र खोलें और निम्न पर नेविगेट करें:

Gradio WebUI लोड होगा और पूरा Fish Speech इंटरफ़ेस उपयोग के लिए तैयार होगा।


चरण-दर-चरण सेटअप

चरण 1: अपने सर्वर में SSH करें

चरण 2: Docker कंटेनर पुल और चलाएँ

चरण 3: GPU एक्सेस सत्यापित करें

आपको अपनी GPU सूचीबद्ध दिखाई देनी चाहिए जिसमें उपलब्ध VRAM हो।

चरण 4: मॉडल डाउनलोड जाँचें

Fish Speech पहले रन पर मॉडल वेट्स स्वचालित रूप से डाउनलोड करता है (~3–5 GB)। प्रगति की निगरानी करें:

इंतजार करें जब तक आप नहीं देखते:

चरण 5: WebUI तक पहुँच

अपने ब्राउज़र में नेविगेट करें http://<server-ip>:7860

चरण 6: (वैकल्पिक) API सर्वर सक्षम करें


उपयोग के उदाहरण

उदाहरण 1: WebUI के माध्यम से बुनियादी टेक्स्ट-टू-स्पीच

  1. WebUI पर खोलें http://<server-ip>:7860

  2. में टेक्स्ट दर्ज करें "Text" फ़ील्ड:

  3. भाषा चुनें: अंग्रेज़ी

  4. पर क्लिक करें "Generate"

  5. निष्पन्न .wav फ़ाइल


उदाहरण 2: ज़ीरो-शॉट वॉइस क्लोनिंग

सिर्फ 10–15 सेकंड के संदर्भ ऑडियो से किसी भी आवाज़ को क्लोन करें:

  1. WebUI में, पर जाएँ "Voice Clone" टैब

  2. अपनी संदर्भ ऑडियो फ़ाइल अपलोड करें (.wav इमेज जेनरेट करें .mp3, 10–30 सेकंड)

  3. संदर्भ ऑडियो का ट्रांसक्रिप्ट दर्ज करें (वैकल्पिक लेकिन गुणवत्ता में सुधार करता है)

  4. सिंथेसाइज़ करने के लिए लक्षित टेक्स्ट दर्ज करें

  5. पर क्लिक करें "Clone & Generate"

मॉडल आवाज़ लक्षणों का विश्लेषण करेगा और उसी आवाज़ में स्पीच सिंथेसाइज़ करेगा।


उदाहरण 3: API-आधारित TTS (Python)


उदाहरण 4: बहुभाषी TTS


उदाहरण 5: ऑडियो फ़ाइलों का बैच प्रोसेसिंग


कॉन्फ़िगरेशन

Docker Compose (Production Setup)

मुख्य कॉन्फ़िगरेशन विकल्प

विकल्प
डिफ़ॉल्ट
विवरण

--listen

0.0.0.0

सर्वर को बाइंड करने के लिए इंटरफ़ेस

--port

7860

Gradio WebUI के लिए पोर्ट

--compile

false

तेज़ इन्फरेंस के लिए torch.compile सक्षम करें

--device

cuda

उपयोग करने के लिए डिवाइस (cuda, cpu, mps)

--half

true

FP16 हाफ-प्रेसिशन का उपयोग करें (VRAM बचाता है)

--num_samples

1

जेनरेट करने के लिए ऑडियो सैंपल्स की संख्या

--max_new_tokens

1024

जनरेशन के लिए अधिकतम नए टोकन

मॉडल वैरिएंट्स

मॉडल
आकार
भाषाएँ
नोट्स

fish-speech-1.4

~3 GB

8 भाषाएँ

नवीनतम स्थिर रिलीज

fish-speech-1.2-sft

~2.5 GB

8 भाषाएँ

फाइन-ट्यून किया गया संस्करण

fish-speech-1.2

~2.5 GB

8 भाषाएँ

बेस मॉडल


प्रदर्शन सुझाव

1. Faster Inference के लिए torch.compile सक्षम करें

पहला रन धीमा होगा (कम्पाइलेशन में 2–5 मिनट लगते हैं), लेकिन बाद का इन्फरेंस 20–40% तेज़ होगा।

2. हाफ-प्रेसिशन (FP16) का उपयोग करें

FP16 VRAM उपयोग ~50% तक घटाता है न्यूनतम गुणवत्ता हानि के साथ:

3. संदर्भ आवाज़ें प्री-लोड करें

बार-बार उपयोग की जाने वाली संदर्भ आवाज़ों को कंटेनर की references निर्देशिका में स्टोर करें ताकि पुन:प्रोसेसिंग से बचा जा सके:

4. GPU मेमोरी अनुकूलन

5. बैच साइज ट्यूनिंग

बैच API अनुरोधों के लिए, अनुकूल बैच साइज:

  • RTX 3080 (10 GB): batch_size = 1–2

  • RTX 3090/4090 (24 GB): batch_size = 4–8

  • A100 (40/80 GB): batch_size = 16–32


समस्या निवारण

समस्या: कंटेनर शुरू नहीं होगा — CUDA नहीं मिला

समस्या: मेमोरी समाप्त (OOM) त्रुटि

समस्या: पोर्ट 7860 सुलभ नहीं है

समस्या: मॉडल डाउनलोड विफल / धीमा डाउनलोड

समस्या: ऑडियो गुणवत्ता खराब है

  • सुनिश्चित करें कि संदर्भ ऑडियो साफ़ हो (कोई पृष्ठभूमि शोर नहीं, 16kHz+ सैम्पल रेट)

  • संदर्भ ऑडियो को 10–30 सेकंड के बीच रखें

  • बेहतर संरेखण के लिए संदर्भ ऑडियो का ट्रांसक्रिप्ट प्रदान करें

  • को बढ़ाने का प्रयास करें --num_samples कई विकल्प जेनरेट करने के लिए और सबसे अच्छा चुनने के लिए

समस्या: WebUI लोड होता है लेकिन जेनरेशन अटक जाता है


लिंक


Clore.ai GPU सिफारिशें

उपयोग केस
सिफारिश की गई GPU
Clore.ai पर अनुमानित लागत

डेवलपमेंट/टेस्टिंग

RTX 3090 (24GB)

~$0.12/gpu/hr

उत्पादन TTS

RTX 4090 (24GB)

~$0.70/gpu/hr

उच्च-थ्रूपुट इन्फरेंस

A100 80GB

~$1.20/gpu/hr

💡 इस गाइड के सभी उदाहरण तैनात किए जा सकते हैं Clore.aiarrow-up-right GPU सर्वरों पर। उपलब्ध GPUs ब्राउज़ करें और घंटे के हिसाब से किराए पर लें — कोई प्रतिबद्धता नहीं, पूर्ण रूट एक्सेस।

Last updated

Was this helpful?