LTX-2 (Audio + Vidéo)
Générez des vidéos avec audio natif — bruitages, ambiance et synchronisation labiale — en utilisant LTX-2 sur les GPU Clore.ai.
LTX-2 (janvier 2026) est le modèle vidéo de nouvelle génération de Lightricks et le premier modèle à poids ouverts à produire audio synchronisé avec la vidéo en un seul passage avant. À 19 milliards de paramètres, il génère des séquences avec effets sonores foley, audio d'ambiance et parole synchronisée sur les lèvres sans nécessiter de modèle audio séparé. L'architecture s'appuie sur l'avantage de vitesse de LTX-Video original tout en élargissant considérablement les capacités.
Louer un GPU sur Clore.ai est la manière la plus pratique d'exécuter un modèle de 19 milliards de paramètres — pas besoin d'acheter un GPU à 2 000 $, il suffit de lancer une machine et de commencer à générer.
Principales caractéristiques
Génération audio native — effets foley, ambiance environnementale et dialogues synchronisés sur les lèvres produits conjointement avec les images vidéo.
19 milliards de paramètres — un backbone transformer significativement plus grand que celui de LTX-Video v1, offrant des détails plus nets et un mouvement plus cohérent.
Texte en vidéo + Image en vidéo — les deux modalités sont prises en charge avec sortie audio.
Jusqu'à 720p — sortie de plus haute fidélité que le modèle v1.
Espace latent audio-visuel conjoint — un VAE unifié encode à la fois la vidéo et l'audio, les maintenant alignés temporellement.
Poids ouverts — publié sous une licence permissive pour une utilisation commerciale.
Intégration Diffusers — compatible avec l'écosystème Hugging Face
intégrationecosystème.
Exigences
VRAM GPU
16 Go (avec déchargement)
24+ Go
RAM système
32 Go
64 Go
Disque
50 Go
80 Go
Python
3.10+
3.11
CUDA
12.1+
12.4
intégration
0.33+
dernière
Recommandation GPU Clore.ai : Un RTX 4090 (24 Go, ~0,5–2 $/jour) est le minimum pour une génération 720p confortable avec audio. Pour des charges par lot ou des itérations plus rapides, filtrez pour dual-4090 ou A6000 (48 Go) les annonces sur la marketplace Clore.ai.
Démarrage rapide
Exemples d'utilisation
Texte en vidéo avec audio
Image en vidéo avec audio synchronisé sur les lèvres
Scène d'ambiance avec foley
Conseils pour les utilisateurs de Clore.ai
Décrire les sons explicitement — la branche audio de LTX-2 répond aux indications audio dans le prompt. "Feu qui crépite", "pas sur du gravier", "murmure d'une foule" produisent de meilleurs foley que des descriptions vagues.
Le déchargement CPU est essentiel — à 19 milliards de paramètres, le modèle a besoin de
enable_model_cpu_offload()sur des cartes 24 Go. Prévoyez 64 Go de RAM système.Stockage persistant — le checkpoint du modèle fait ~40 Go. Montez un volume persistant Clore.ai et définissez
HF_HOMEpour éviter de retélécharger à chaque redémarrage du conteneur.Muxer audio + vidéo — si le pipeline produit l'audio séparément, combinez avec :
ffmpeg -i video.mp4 -i audio.wav -c:v copy -c:a aac final.mp4.bf16 uniquement — le modèle 19B a été entraîné en bf16 ; le fp16 provoquera des instabilités numériques.
Batch dans tmux — exécutez toujours à l'intérieur de
tmuxsur les locations Clore.ai pour survivre aux déconnexions SSH.Vérifier l'ID du modèle — comme LTX-2 vient d'être publié (janv. 2026), vérifiez l'ID exact du modèle HuggingFace sur le page HF de Lightricks avant d'exécuter.
Dépannage
OutOfMemoryError
Activez pipe.enable_model_cpu_offload(); assurez ≥64 Go de RAM système
Pas d'audio dans la sortie
La génération audio peut nécessiter un indicateur explicite ou des diffusers mis à jour ; consultez la fiche du modèle pour la dernière API
Désynchronisation audio/vidéo
Remuxer avec ffmpeg : ffmpeg -i video.mp4 -i audio.wav -c:v copy -c:a aac -shortest out.mp4
Génération très lente
Le modèle 19B est gourmand en calcul ; ~2–4 min par clip de 5 s sur RTX 4090 est attendu
Sorties NaN
Utilisez torch.bfloat16 — le fp16 n'est pas pris en charge à cette échelle de modèle
Erreur d'espace disque
Le modèle fait ~40 Go ; assurez ≥80 Go d'espace disque libre avant de télécharger
ModuleNotFoundError : soundfile
pip install soundfile — nécessaire pour l'export WAV audio
Mis à jour
Ce contenu vous a-t-il été utile ?