ChatTTS वार्तालापीय स्पीच

Clore.ai GPUs पर सूक्ष्म-शैली नियंत्रण के साथ ChatTTS वार्तालापीय टेक्स्ट-टू-स्पीच चलाएँ।

ChatTTS एक 300M-पैरामीटर जेनरेटिव स्पीच मॉडल है जो LLM असिस्टेंट, चैटबॉट और इंटरैक्टिव वॉइस एप्लिकेशन जैसे संवाद परिदृश्यों के लिए अनुकूलित है। यह प्राकृतिक-सा बोलना उत्पन्न करता है जिसमें संवाद के लिए यथार्थवादी विराम, हँसी, फिलर्स और उच्चारण शामिल हैं — ऐसे गुण जिन्हें अधिकांश TTS सिस्टम दोहराने में संघर्ष करते हैं। मॉडल अंग्रेजी और चीनी का समर्थन करता है और 24 kHz पर ऑडियो जेनरेट करता है।

GitHub: 2noise/ChatTTS (30K+ स्टार्स) लाइसेंस: AGPLv3+ (कोड), CC BY-NC 4.0 (मॉडल वेट्स — गैर-वाणिज्यिक)

प्रमुख विशेषताएँ

संवादी प्रयोजना (Conversational prosody) — संवाद के लिए समायोजित प्राकृतिक विराम, फिलर्स और उच्चारण
सूक्ष्म-नियंत्रण टैग — [oral_0-9], [laugh_0-2], [break_0-7], [uv_break], [lbreak]
बहु-भाषी/बहु-वक्ता (Multi-speaker) — यादृच्छिक वक्ताओं का सैंपल लें या सुसंगतता के लिए वक्ता एम्बेडिंग्स पुन: उपयोग करें
टेम्परेचर / top-P / top-K — जेनरेशन विविधता नियंत्रित करें
बैच इनफ़रेंस — एक ही कॉल में कई टेक्स्ट संश्लेषित करें
हल्का/लाइटवेट — ~300M पैरामीटर, 4 GB VRAM पर चलता है

आवश्यकताएँ

घटक

न्यूनतम

अनुशंसित

GPU

RTX 3060 (4 GB मुक्त)

RTX 3090 / RTX 4090

VRAM

4 GB

8 GB+

RAM

8 GB

16 GB

डिस्क

5 GB

10 GB

Python

3.9+

3.11

CUDA

11.8+

12.1+

Clore.ai सिफारिश: एक RTX 3060 (~~$0.15–0.30/दिन) आसानी से ChatTTS संभालता है। बैच उत्पादन या कम विलंबता के लिए, RTX 3090 चुनें (~~$0.30–1.00/दिन)।

इंस्टॉलेशन

# PyPI से इंस्टॉल करें
pip install ChatTTS torch torchaudio

# या नवीनतम फीचर्स के लिए स्रोत से इंस्टॉल करें
git clone https://github.com/2noise/ChatTTS.git
cd ChatTTS
pip install -r requirements.txt

# GPU सत्यापित करें
python -c "import torch; print(torch.cuda.get_device_name(0))"

त्वरित प्रारम्भ

import ChatTTS
import torch
import torchaudio

# मॉडल प्रारम्भ करें और लोड करें (पहली बार रन पर वेट्स डाउनलोड होते हैं)
chat = ChatTTS.Chat()
chat.load(compile=False)  # वार्मअप के बाद तेज़ इनफ़रेंस के लिए compile=True सेट करें

texts = [
    "अरे वहाँ! आपका दिन अब तक कैसा चल रहा है?",
    "मैं इस प्रोजेक्ट पर पूरी सुबह काम कर रहा/रही हूँ। यह अच्छी तरह से बन रहा है।",
]

wavs = chat.infer(texts)

for i, wav in enumerate(wavs):
    audio_tensor = torch.from_numpy(wav)
    if audio_tensor.dim() == 1:
        audio_tensor = audio_tensor.unsqueeze(0)
    torchaudio.save(f"output_{i}.wav", audio_tensor, 24000)
    print(f"Saved output_{i}.wav")

उपयोग के उदाहरण

सुसंगत वक्ता की आवाज

एक सुसंगत आवाज के लिए एक यादृच्छिक वक्ता एम्बेडिंग सैंपल करें और इसे कई जेनरेशनों में पुन: उपयोग करें:

import ChatTTS
import torch
import torchaudio

chat = ChatTTS.Chat()
chat.load(compile=False)

# एक वक्ता सैंपल करें — बाद में पुन: उपयोग करने के लिए इस स्ट्रिंग को सेव करें
rand_spk = chat.sample_random_speaker()

params_infer_code = ChatTTS.Chat.InferCodeParams(
    spk_emb=rand_spk,
    temperature=0.3,
    top_P=0.7,
    top_K=20,
)

params_refine_text = ChatTTS.Chat.RefineTextParams(
    prompt='[oral_2][laugh_0][break_4]',
)

texts = ["Welcome to today's episode. Let me tell you about something exciting."]

wavs = chat.infer(
    texts,
    params_refine_text=params_refine_text,
    params_infer_code=params_infer_code,
)

audio = torch.from_numpy(wavs[0])
if audio.dim() == 1:
    audio = audio.unsqueeze(0)
torchaudio.save("consistent_speaker.wav", audio, 24000)

शब्द-स्तरीय नियंत्रण टैग

सटीक छंद-लय के लिए नियंत्रण टैग सीधे पाठ में डालें:

import ChatTTS
import torch
import torchaudio

chat = ChatTTS.Chat()
chat.load(compile=False)

# टैग: [uv_break] = छोटी रुकी, [laugh] = हँसी, [lbreak] = लंबी रुकी
text = 'What is [uv_break]your favorite food?[laugh][lbreak]'

rand_spk = chat.sample_random_speaker()
params = ChatTTS.Chat.InferCodeParams(spk_emb=rand_spk, temperature=0.3)

# skip_refine_text=True आपके मैन्युअल नियंत्रण टैग्स को संरक्षित करता है
wavs = chat.infer(text, skip_refine_text=True, params_infer_code=params)

audio = torch.from_numpy(wavs[0])
if audio.dim() == 1:
    audio = audio.unsqueeze(0)
torchaudio.save("controlled_output.wav", audio, 24000)

वेबUI के साथ बैच प्रसंस्करण

इंटरैक्टिव उपयोग के लिए ChatTTS गराडियो वेब इंटरफेस के साथ आता है:

cd ChatTTS
python examples/web/webui.py --server_name 0.0.0.0 --server_port 7860

खोलें http_pub UI तक पहुँचने के लिए अपने Clore.ai ऑर्डर डैशबोर्ड से URL।

Clore.ai उपयोगकर्ताओं के लिए सुझाव

उपयोग करें compile=True प्रारंभिक परीक्षण के बाद — PyTorch कम्पाइलेशन स्टार्टअप समय बढ़ाता है लेकिन बार-बार इनफ़रेंस को काफी तेज़ कर देता है
पोर्ट मैपिंग — पोर्ट खोलें 7860/http जब WebUI के साथ परिनियोजित कर रहे हों
Docker इमेज — उपयोग करें pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime एक बेस के रूप में
स्पीकर निरंतरता — सहेजें rand_spk स्ट्रिंग्स को फ़ाइल में ताकि आप सत्रों के बीच आवाज़ों का पुन: उपयोग कर सकें बिना फिर से सैंपल किए
अपने अनुरोधों को बैच करें — chat.infer() पाठों की एक सूची स्वीकार करता है और उन्हें एक साथ प्रोसेस करता है, जो एक-एक करके कॉल करने से अधिक कुशल है
गैर-व्यावसायिक लाइसेंस — मॉडल वज़न CC BY-NC 4.0 हैं; अपने उपयोग के मामले के लिए लाइसेंसिंग आवश्यकताओं की जाँच करें

समस्याओं का निवारण

समस्या

समाधान

CUDA में आउट ऑफ मेमोरी

बैच साइज कम करें या ≥ 6 GB VRAM वाले GPU का उपयोग करें

मॉडल धीरे-धीरे डाउनलोड होता है

HuggingFace से पहले से डाउनलोड करें: huggingface-cli download 2Noise/ChatTTS

ऑडियो में स्टैटिक/शोर है

यह ओपन-सोर्स मॉडल में जानबूझकर है (दुरुपयोग-रोधी उपाय); साफ़ आउटपुट के लिए उपयोग करें compile=True साफ़ आउटपुट के लिए

torchaudio.save आयाम त्रुटि

सुनिश्चित करें टेन्सर 2D है: audio.unsqueeze(0) यदि आवश्यक हो

बिखरी हुई चीनी आउटपुट

सुनिश्चित करें कि इनपुट पाठ UTF-8 एन्कोडेड है; इंस्टॉल करें WeTextProcessing बेहतर सामान्यीकरण के लिए

पहला अनुमान धीमा

सामान्य — मॉडल संकलन और वज़न लोडिंग पहले कॉल पर होते हैं; बाद की कॉलें तेज़ होती हैं

PreviousKokoro TTS NextChatterbox वॉइस क्लोनिंग

Last updated 21 days ago

Was this helpful?

hashtagप्रमुख विशेषताएँ

hashtagआवश्यकताएँ

hashtagइंस्टॉलेशन

hashtagत्वरित प्रारम्भ

hashtagउपयोग के उदाहरण

hashtagसुसंगत वक्ता की आवाज

hashtagशब्द-स्तरीय नियंत्रण टैग

hashtagवेबUI के साथ बैच प्रसंस्करण

hashtagClore.ai उपयोगकर्ताओं के लिए सुझाव

hashtagसमस्याओं का निवारण