LTX-2 (Audio + Video)
Genera videos con audio nativo — foley, ambiente y sincronización labial — usando LTX-2 en GPUs de Clore.ai.
LTX-2 (enero de 2026) es el modelo fundacional de video de segunda generación de Lightricks y el primer modelo de pesos abiertos que produce audio sincronizado junto con video en una sola pasada hacia adelante. Con 19.000 millones de parámetros genera clips con efectos foley, audio ambiental y discurso con sincronización labial sin necesitar un modelo de audio separado. La arquitectura se basa en la ventaja de velocidad del LTX-Video original mientras expande drásticamente la capacidad.
Alquilar una GPU en Clore.ai es la forma más práctica de ejecutar un modelo de 19.000 millones de parámetros: no se requiere comprar una GPU de $2,000, solo inicia una máquina y comienza a generar.
Características clave
Generación de audio nativa — efectos foley, ambiente ambiental y diálogo con sincronización labial producidos conjuntamente con los fotogramas de video.
19.000 millones de parámetros — columna vertebral transformer significativamente más grande que LTX-Video v1, ofreciendo detalles más nítidos y movimiento más coherente.
Texto a Video + Imagen a Video — ambas modalidades son compatibles con salida de audio.
Hasta resolución 720p — salida de mayor fidelidad que el modelo v1.
Espacio latente audiovisual conjunto — un VAE unificado codifica tanto video como audio, manteniéndolos alineados temporalmente.
Pesos abiertos — lanzado bajo una licencia permisiva para uso comercial.
Integración con Diffusers — compatible con el ecosistema de Hugging Face
diffusersecosistema.
Requisitos
VRAM de GPU
16 GB (con descarga en CPU)
24+ GB
RAM del sistema
32 GB
64 GB
Disco
50 GB
80 GB
Python
3.10+
3.11
CUDA
12.1+
12.4
diffusers
0.33+
última
Recomendación de GPU de Clore.ai: Un RTX 4090 (24 GB, ~0,5–2 $/día) es el mínimo para una generación cómoda de 720p con audio. Para cargas por lotes o iteración más rápida, filtra por dual-4090 o A6000 (48 GB) anuncios en el mercado de Clore.ai.
Inicio rápido
Ejemplos de uso
Texto a Video con Audio
Imagen a Video con audio sincronizado de labios
Escena ambiental con Foley
Consejos para usuarios de Clore.ai
Describe los sonidos explícitamente — la rama de audio de LTX-2 responde a indicios de audio en el prompt. "Fuego crepitante", "pasos en grava", "murmullo de la multitud" generan mejor foley que descripciones vagas.
La descarga en CPU es esencial — con 19.000 millones de parámetros, el modelo necesita
enable_model_cpu_offload()en tarjetas de 24 GB. Presupuesta 64 GB de RAM del sistema.Almacenamiento persistente — el punto de control del modelo ocupa ~40 GB. Monta un volumen persistente de Clore.ai y configura
HF_HOMEpara evitar volver a descargar en cada reinicio del contenedor.Multiplexar audio + video — si la canalización produce audio por separado, combínalos con:
ffmpeg -i video.mp4 -i audio.wav -c:v copy -c:a aac final.mp4.solo bf16 — el modelo de 19.000 millones fue entrenado en bf16; fp16 causará inestabilidad numérica.
Procesamiento por lotes en tmux — siempre ejecútalo dentro de
tmuxen alquileres de Clore.ai para sobrevivir a desconexiones SSH.Comprobar ID del modelo — como LTX-2 se ha lanzado recientemente (ene 2026), verifica el ID exacto del modelo en HuggingFace en la página de Lightricks en HF antes de ejecutar.
Solución de problemas
OutOfMemoryError
Habilite pipe.enable_model_cpu_offload(); asegúrate de ≥64 GB de RAM del sistema
No hay audio en la salida
La generación de audio puede requerir una bandera explícita o diffusers actualizado; consulta la ficha del modelo para la API más reciente
Desincronización audio/video
Remultiplexar con ffmpeg: ffmpeg -i video.mp4 -i audio.wav -c:v copy -c:a aac -shortest out.mp4
Generación muy lenta
El modelo de 19.000 millones exige mucha potencia de cómputo; se esperan ~2–4 min por clip de 5 segundos en una RTX 4090
Salidas NaN
Usa torch.bfloat16 — fp16 no es compatible con esta escala de modelo
Error de espacio en disco
El modelo ocupa ~40 GB; asegúrate de tener ≥80 GB de espacio libre antes de descargar
ModuleNotFoundError: soundfile
pip install soundfile — necesario para la exportación de audio WAV
Última actualización
¿Te fue útil?