LTX-2 (Audio + Video)

Genera videos con audio nativo — foley, ambiente y sincronización labial — usando LTX-2 en GPUs de Clore.ai.

LTX-2 (enero de 2026) es el modelo fundacional de video de segunda generación de Lightricks y el primer modelo de pesos abiertos que produce audio sincronizado junto con video en una sola pasada hacia adelante. Con 19.000 millones de parámetros genera clips con efectos foley, audio ambiental y discurso con sincronización labial sin necesitar un modelo de audio separado. La arquitectura se basa en la ventaja de velocidad del LTX-Video original mientras expande drásticamente la capacidad.

Alquilar una GPU en Clore.aiarrow-up-right es la forma más práctica de ejecutar un modelo de 19.000 millones de parámetros: no se requiere comprar una GPU de $2,000, solo inicia una máquina y comienza a generar.

Características clave

  • Generación de audio nativa — efectos foley, ambiente ambiental y diálogo con sincronización labial producidos conjuntamente con los fotogramas de video.

  • 19.000 millones de parámetros — columna vertebral transformer significativamente más grande que LTX-Video v1, ofreciendo detalles más nítidos y movimiento más coherente.

  • Texto a Video + Imagen a Video — ambas modalidades son compatibles con salida de audio.

  • Hasta resolución 720p — salida de mayor fidelidad que el modelo v1.

  • Espacio latente audiovisual conjunto — un VAE unificado codifica tanto video como audio, manteniéndolos alineados temporalmente.

  • Pesos abiertos — lanzado bajo una licencia permisiva para uso comercial.

  • Integración con Diffusers — compatible con el ecosistema de Hugging Face diffusers ecosistema.

Requisitos

Componente
Mínimo
Recomendado

VRAM de GPU

16 GB (con descarga en CPU)

24+ GB

RAM del sistema

32 GB

64 GB

Disco

50 GB

80 GB

Python

3.10+

3.11

CUDA

12.1+

12.4

diffusers

0.33+

última

Recomendación de GPU de Clore.ai: Un RTX 4090 (24 GB, ~0,5–2 $/día) es el mínimo para una generación cómoda de 720p con audio. Para cargas por lotes o iteración más rápida, filtra por dual-4090 o A6000 (48 GB) anuncios en el mercado de Clore.ai.

Inicio rápido

Ejemplos de uso

Texto a Video con Audio

Imagen a Video con audio sincronizado de labios

Escena ambiental con Foley

Consejos para usuarios de Clore.ai

  1. Describe los sonidos explícitamente — la rama de audio de LTX-2 responde a indicios de audio en el prompt. "Fuego crepitante", "pasos en grava", "murmullo de la multitud" generan mejor foley que descripciones vagas.

  2. La descarga en CPU es esencial — con 19.000 millones de parámetros, el modelo necesita enable_model_cpu_offload() en tarjetas de 24 GB. Presupuesta 64 GB de RAM del sistema.

  3. Almacenamiento persistente — el punto de control del modelo ocupa ~40 GB. Monta un volumen persistente de Clore.ai y configura HF_HOME para evitar volver a descargar en cada reinicio del contenedor.

  4. Multiplexar audio + video — si la canalización produce audio por separado, combínalos con: ffmpeg -i video.mp4 -i audio.wav -c:v copy -c:a aac final.mp4.

  5. solo bf16 — el modelo de 19.000 millones fue entrenado en bf16; fp16 causará inestabilidad numérica.

  6. Procesamiento por lotes en tmux — siempre ejecútalo dentro de tmux en alquileres de Clore.ai para sobrevivir a desconexiones SSH.

  7. Comprobar ID del modelo — como LTX-2 se ha lanzado recientemente (ene 2026), verifica el ID exacto del modelo en HuggingFace en la página de Lightricks en HFarrow-up-right antes de ejecutar.

Solución de problemas

Problema
Solucionar

OutOfMemoryError

Habilite pipe.enable_model_cpu_offload(); asegúrate de ≥64 GB de RAM del sistema

No hay audio en la salida

La generación de audio puede requerir una bandera explícita o diffusers actualizado; consulta la ficha del modelo para la API más reciente

Desincronización audio/video

Remultiplexar con ffmpeg: ffmpeg -i video.mp4 -i audio.wav -c:v copy -c:a aac -shortest out.mp4

Generación muy lenta

El modelo de 19.000 millones exige mucha potencia de cómputo; se esperan ~2–4 min por clip de 5 segundos en una RTX 4090

Salidas NaN

Usa torch.bfloat16 — fp16 no es compatible con esta escala de modelo

Error de espacio en disco

El modelo ocupa ~40 GB; asegúrate de tener ≥80 GB de espacio libre antes de descargar

ModuleNotFoundError: soundfile

pip install soundfile — necesario para la exportación de audio WAV

Última actualización

¿Te fue útil?