LTX-2 (Audio + Video)
Generieren Sie Videos mit nativer Audio-Untermalung — Foley, Ambiente und Lippensynchronisation — mittels LTX-2 auf Clore.ai GPUs.
LTX-2 (Januar 2026) ist Lightricks' zweitgenerations Video-Foundationsmodell und das erste Open-Weight-Modell, das synchronisierten Ton neben Video in einem einzigen Vorwärtsdurchlauf erzeugt. Mit 19 Milliarden Parametern generiert es Clips mit Foley-Soundeffekten, Umgebungsgeräuschen und lippen-synchroner Sprache, ohne ein separates Audiomodell zu benötigen. Die Architektur baut auf dem Geschwindigkeitsvorteil des ursprünglichen LTX-Video auf und erweitert die Fähigkeiten drastisch.
Eine GPU mieten auf Clore.ai ist der praktischste Weg, ein 19B-Parameter-Modell auszuführen — kein $2.000 GPU-Kauf erforderlich, einfach eine Maschine hochfahren und mit der Generierung beginnen.
Hauptmerkmale
Native Audiowiedergabe — Foley-Effekte, Umgebungsambiente und lippen-synchroner Dialog, gemeinsam mit Videoframes erzeugt.
19B Parameter — deutlich größeres Transformer-Backbone als LTX-Video v1, liefert schärfere Details und kohärentere Bewegung.
Text-zu-Video + Bild-zu-Video — beide Modalitäten werden mit Audioausgabe unterstützt.
Bis zu 720p Auflösung — höherwertige Ausgabe als das v1-Modell.
Gemeinsamer audio-visueller latenter Raum — ein vereinheitlichter VAE kodiert sowohl Video als auch Audio und hält sie zeitlich ausgerichtet.
Offene Gewichte — unter einer permissiven Lizenz für kommerzielle Nutzung freigegeben.
Diffusers-Integration — kompatibel mit dem Hugging Face
diffusersÖkosystem.
Anforderungen
GPU-VRAM
16 GB (mit Offloading)
24+ GB
System-RAM
32 GB
64 GB
Festplatte
50 GB
80 GB
Python
3.10+
3.11
CUDA
12.1+
12.4
diffusers
0.33+
neueste
Clore.ai GPU-Empfehlung: Ein RTX 4090 (24 GB, ~0,5–2 $/Tag) ist das Minimum für komfortable 720p-Generierung mit Audio. Für Batch-Workloads oder schnellere Iteration nach dual-4090 oder A6000 (48 GB) Einträgen auf dem Clore.ai-Marktplatz filtern.
Schnellstart
Beispielanwendungen
Text-zu-Video mit Audio
Bild-zu-Video mit lippen-synchronem Audio
Atmosphärische Szene mit Foley
Tipps für Clore.ai-Nutzer
Geräusche ausdrücklich beschreiben — LTX-2s Audiobranche reagiert auf akustische Hinweise im Prompt. "Knisterndes Feuer", "Schritte auf Kies", "beiläufiges Gemurmel einer Menge" liefern besseres Foley als vage Beschreibungen.
CPU-Offloading ist essenziell — bei 19B Parametern benötigt das Modell
enable_model_cpu_offload()auf 24-GB-Karten. Plane 64 GB System-RAM ein.Persistenter Speicher — der Modell-Checkpoint ist ~40 GB. Hänge ein persistenten Clore.ai-Volume ein und setze
HF_HOMEum wiederholtes Herunterladen bei jedem Container-Neustart zu vermeiden.Audio + Video muxen — wenn die Pipeline Audio separat ausgibt, kombiniere mit:
ffmpeg -i video.mp4 -i audio.wav -c:v copy -c:a aac final.mp4.Nur bf16 — das 19B-Modell wurde in bf16 trainiert; fp16 führt zu numerischer Instabilität.
Batch in tmux — führe es immer innerhalb von
tmuxauf Clore.ai-Mieten, um SSH-Verbindungen zu überleben.Modell-ID überprüfen — da LTX-2 frisch veröffentlicht ist (Jan 2026), überprüfe die genaue HuggingFace-Modell-ID auf der Lightricks HF-Seite bevor du startest.
Fehlerbehebung
OutOfMemoryError
Aktivieren Sie pipe.enable_model_cpu_offload(); stelle ≥64 GB System-RAM sicher
Kein Audio in der Ausgabe
Die Audiogenerierung kann ein explizites Flag oder aktualisierte diffusers erfordern; prüfe die Modellkarte für die neueste API
Audio/Video-Desynchronisation
Erneut mit ffmpeg muxen: ffmpeg -i video.mp4 -i audio.wav -c:v copy -c:a aac -shortest out.mp4
Sehr langsame Generierung
Das 19B-Modell ist rechenintensiv; ~2–4 Min. pro 5-Sekunden-Clip auf einer RTX 4090 sind zu erwarten
NaN-Ausgaben
Verwenden Sie torch.bfloat16 — fp16 wird für dieses Modellmaß nicht unterstützt
Festplattenplatzfehler
Das Modell ist ~40 GB; stelle vor dem Herunterladen ≥80 GB freien Speicher sicher
ModuleNotFoundError: soundfile
pip install soundfile — wird für den WAV-Audioexport benötigt
Zuletzt aktualisiert
War das hilfreich?