Generación de Video CogVideoX
Genera videos de 6 segundos a partir de texto o imágenes con el transformador de difusión CogVideoX de Zhipu AI en GPUs de Clore.ai.
CogVideoX es una familia de transformadores de difusión de video con pesos abiertos de Zhipu AI (Tsinghua). Los modelos generan clips coherentes de 6 segundos a resolución 720×480 y 8 fps a partir de un prompt de texto (T2V) o de una imagen de referencia más prompt (I2V). Hay dos escalas de parámetros disponibles: 2B para iteración rápida y 5B para mayor fidelidad, ambas con diffusers integración a través de CogVideoXPipeline.
Ejecutar CogVideoX en una GPU alquilada desde Clore.ai te permite omitir las limitaciones de hardware local y generar video a escala por centavos por clip.
Características clave
Texto a Video (T2V) — describe una escena y obtén un clip de 6 segundos 720×480 a 8 fps (49 fotogramas).
Imagen a Video (I2V) — proporciona una imagen de referencia más un prompt; el modelo la anima con coherencia temporal.
Dos escalas — CogVideoX-2B (rápido, ~12 GB VRAM) y CogVideoX-5B (mayor calidad, ~20 GB VRAM).
Soporte nativo de diffusers — clases de
CogVideoXPipelineyCogVideoXImageToVideoPipelinede primera clase.VAE causal 3D — comprime 49 fotogramas en un espacio latente compacto para un denoising eficiente.
Pesos abiertos — licencia Apache-2.0 para la variante 2B; licencia de investigación para 5B.
Requisitos
VRAM de GPU
16 GB (2B, fp16)
24 GB (5B, bf16)
RAM del sistema
32 GB
64 GB
Disco
30 GB
50 GB
Python
3.10+
3.11
CUDA
12.1+
12.4
Recomendación de GPU de Clore.ai: Un RTX 4090 (24 GB, ~$0.5–2/día) maneja cómodamente tanto las variantes 2B como 5B. Un RTX 3090 (24 GB, ~$0.3–1/día) funciona igual de bien para 5B en bf16 y es la opción económica.
Inicio rápido
Ejemplos de uso
Texto a Video (5B)
Imagen a Video (5B)
Generación rápida con la variante 2B
Consejos para usuarios de Clore.ai
Habilitar tiling del VAE — sin
pipe.vae.enable_tiling()el VAE 3D causará OOM en tarjetas de 24 GB durante la decodificación.Usa
enable_model_cpu_offload()— mueve módulos inactivos a la RAM automáticamente; añade ~10 % de tiempo de ejecución pero ahorra más de 4 GB de VRAM pico.bf16 para 5B, fp16 para 2B — el checkpoint 5B fue entrenado en bf16; usar fp16 puede causar salidas NaN.
Persistir modelos — monta un volumen persistente de Clore.ai en
/modelsy configuraHF_HOME=/models/hfpara que los pesos sobrevivan a los reinicios del contenedor.Procesar por lotes durante la noche — encola listas largas de prompts con un simple bucle en Python; la facturación de Clore.ai es por hora, así que satura la GPU.
SSH + tmux — ejecuta la generación dentro de
tmuxpara que una conexión caída no termine el proceso.Selecciona la GPU correcta — filtra el marketplace de Clore.ai por tarjetas con ≥24 GB de VRAM; ordena por precio para encontrar la RTX 3090 / 4090 más barata disponible.
Solución de problemas
OutOfMemoryError durante la decodificación del VAE
Llama a pipe.vae.enable_tiling() antes de la inferencia
NaN / fotogramas negros con 5B
Cambia a torch.bfloat16; fp16 no está soportado para la variante 5B
ImportError: imageio
pip install imageio[ffmpeg] — el plugin ffmpeg es necesario para la exportación a MP4
Primera ejecución muy lenta
La descarga del modelo es ~20 GB; las ejecuciones posteriores usan los pesos en caché
Incompatibilidad de versión de CUDA
Asegúrate de que la versión CUDA de PyTorch coincida con el driver: python -c "import torch; print(torch.version.cuda)"
Movimiento garabateado / parpadeo
Aumente num_inference_steps a 50; valores más bajos guidance_scale a 5.0
Contenedor terminado a mitad de descarga
Establecer HF_HOME a un volumen persistente y reinicia — las descargas parciales se reanudan automáticamente
Última actualización
¿Te fue útil?