LTX-2 (ऑडियो + वीडियो)
Clore.ai GPUs पर LTX-2 का उपयोग करके नेटिव ऑडियो — फोली, परिवेश और लिप-सिंक — के साथ वीडियो जेनरेट करें।
LTX-2 (जनवरी 2026) Lightricks का दूसरी पीढ़ी का वीडियो फाउंडेशन मॉडल है और पहला ऐसा ओपन-वेट मॉडल है जो उत्पन्न करता है वीडियो के साथ समक्रमित ऑडियो एक ही फॉरवर्ड पास में। 19B पैरामीटर पर यह क्लिप्स जनरेट करता है जिनमें फोले ध्वनि प्रभाव, परिवेशीय ऑडियो और होंठ-सिंक किया गया भाषण शामिल होता है बिना किसी अलग ऑडियो मॉडल की आवश्यकता के। आर्किटेक्चर मूल LTX-वीडियो की गति लाभ पर आधारित है जबकि क्षमता में नाटकीय वृद्धि करता है।
GPU किराए पर लेना Clore.ai एक 19B-पैरामीटर मॉडल चलाने का सबसे व्यावहारिक तरीका है — $2,000 GPU खरीदने की आवश्यकता नहीं, बस एक मशीन चालू करें और जनरेट करना शुरू करें।
प्रमुख विशेषताएँ
मूल ऑडियो जनरेशन — फोले प्रभाव, पर्यावरणीय वातावरण और वीडियो फ़्रेम के साथ संयुक्त रूप से उत्पादित होंठ-सिंक संवाद।
19B पैरामीटर — LTX-Video v1 की तुलना में काफी बड़ा ट्रांसफॉर्मर बैकबोन, तेज़ और अधिक सुसंगत गति के साथ विवरण बेहतर देता है।
टेक्स्ट-टू-वीडियो + इमेज-टू-वीडियो — दोनों मोडालिटीज़ ऑडियो आउटपुट के साथ समर्थित हैं।
अधिकतम 720p रिज़ॉल्यूशन तक — v1 मॉडल की तुलना में उच्च fidelity आउटपुट।
संयुक्त ऑडियो-वीज़ुअल लैटेंट स्पेस — एक एकीकृत VAE दोनों वीडियो और ऑडियो को एन्कोड करता है, जिससे वे समयानुगत रूप से संरेखित रहते हैं।
ओपन वेट्स — वाणिज्यिक उपयोग के लिए एक उदार लाइसेंस के तहत जारी।
Diffusers एकीकरण — Hugging Face इकोसिस्टम के साथ संगत।
diffusersइकोसिस्टम।
आवश्यकताएँ
GPU VRAM
16 GB (ऑफ़लोडिंग के साथ)
24+ GB
सिस्टम RAM
32 GB
64 GB
डिस्क
50 GB
80 GB
Python
3.10+
3.11
CUDA
12.1+
12.4
diffusers
0.33+
नवीनतम
Clore.ai GPU सिफारिश: एक RTX 4090 (24 GB, ~$0.5–2/दिन) ऑडियो के साथ आरामदायक 720p जनरेशन के लिए न्यूनतम है। बैच वर्कलोड या तेज़ पुनरावृत्ति के लिए, फिल्टर करें डुअल-4090 या A6000 (48 GB) क्लोर.ai मार्केटप्लेस पर लिस्टिंग्स के।
त्वरित प्रारम्भ
उपयोग के उदाहरण
ऑडियो के साथ टेक्स्ट-टू-वीडियो
लिप-सिंक ऑडियो के साथ इमेज-टू-वीडियो
फोले के साथ परिवेशीय दृश्य
Clore.ai उपयोगकर्ताओं के लिए सुझाव
ध्वनियों का स्पष्ट वर्णन करें — LTX-2 की ऑडियो शाखा प्रॉम्प्ट में दिए गए ऑडियो संकेतों पर प्रतिक्रिया देती है। "दरकती आग", "कंकड़ पर कदमों की आवाज़", "भीड़ की फुसफुसाहट" जैसे स्पष्ट विवरण अस्पष्ट वर्णनों की तुलना में बेहतर फोले देते हैं।
CPU ऑफ़लोडिंग अनिवार्य है — 19B पैरामीटर पर, मॉडल को आवश्यकता होती है
enable_model_cpu_offload()24 GB कार्ड पर। 64 GB सिस्टम RAM का बजट रखें।स्थायी स्टोरेज — मॉडल चेकपॉइंट ~40 GB है। एक Clore.ai परसेन्ट वॉल्यूम माउंट करें और सेट करें
HF_HOMEताकि हर कंटेनर रीस्टार्ट पर पुनः-डाउनलोड न हो।ऑडियो + वीडियो मिक्स करें — यदि पाइपलाइन अलग से ऑडियो आउटपुट करती है, तो इसे मिलाएँ:
ffmpeg -i video.mp4 -i audio.wav -c:v copy -c:a aac final.mp4.केवल bf16 — 19B मॉडल bf16 में प्रशिक्षित था; fp16 संख्यात्मक अस्थिरता पैदा करेगा।
tmux में बैचिंग — Clore.ai किराए पर हमेशा के अंदर चलाएँ
tmuxClore.ai रेंटल्स पर SSH डिसकनेक्ट से बचने के लिए।मॉडल ID जाँचें — चूँकि LTX-2 ताज़ा जारी (जनवरी 2026) हुआ है, चलाने से पहले HuggingFace पर सटीक मॉडल ID की पुष्टि करें Lightricks HF पेज चलाने से पहले।
समस्याओं का निवारण
OutOfMemoryError
सक्षम करें pipe.enable_model_cpu_offload(); सुनिश्चित करें ≥64 GB सिस्टम RAM
आउटपुट में कोई ऑडियो नहीं
ऑडियो जनरेशन के लिए स्पष्ट फ़्लैग या अपडेटेड diffusers की आवश्यकता हो सकती है; नवीनतम API के लिए मॉडल कार्ड देखें
ऑडियो/वीडियो असिंक्रनाइज़ेशन
फिर से ffmpeg से मिक्स करें: ffmpeg -i video.mp4 -i audio.wav -c:v copy -c:a aac -shortest out.mp4
बहुत धीमी जेनरेशन
19B मॉडल कंप्यूट-भारी है; RTX 4090 पर 5-सेकेंड क्लिप के लिए ~2–4 मिनट अपेक्षित है
NaN आउटपुट
उपयोग करें torch.bfloat16 — इस मॉडल स्केल के लिए fp16 समर्थित नहीं है
डिस्क स्थान त्रुटि
मॉडल ~40 GB है; डाउनलोड करने से पहले ≥80 GB खाली डिस्क सुनिश्चित करें
ModuleNotFoundError: soundfile
pip install soundfile — WAV ऑडियो निर्यात के लिए आवश्यक
Last updated
Was this helpful?