Mochi-1 Video
Mochi-1 es el modelo de generación de video de código abierto de Genmo con 10 mil millones de parámetros que produce salida a 848×480 @ 30fps con movimiento físicamente realista. Utiliza una arquitectura de transformador de difusión asimétrica (AsymmDiT) y se encuentra entre los modelos de video de código abierto de mayor calidad en fidelidad de movimiento. Desplégalo en la nube GPU de Clore.ai para generar videos de calidad profesional a una fracción del costo de las API comerciales.
¿Qué es Mochi-1?
Mochi-1 es un modelo de 10 mil millones de parámetros modelo de difusión de video entrenado para producir videos con:
Movimiento suave y físicamente plausible
Alta consistencia temporal
Fuerte adherencia al prompt
Resolución 848×480 a 30 fps
Utiliza un transformador de difusión asimétrico (arquitectura AsymmDiT) — diferentes profundidades de codificador para video y texto — que permite inferencia eficiente a escala. Los pesos se publican bajo la Licencia de Código Abierto de Genmo, libres para uso de investigación y comercial.
Aspectos destacados del modelo:
10B de parámetros
Salida nativa 848×480 @ 30 fps
Alta fidelidad de movimiento (clasificado entre los mejores en benchmarks comunitarios)
Disponible en Hugging Face con integración en diffusers
Interfaz demo en Gradio para interacción fácil
Prerrequisitos
VRAM GPU
24 GB
40–80 GB
GPU
RTX 4090
A100 / H100
RAM
32 GB
64 GB
Almacenamiento
60 GB
100 GB
CUDA
11.8+
12.1+
Mochi-1 es un modelo grande (≈40 GB en fp8 / ≈80 GB en bf16). Una sola RTX 4090 (24 GB) puede ejecutarlo con cuantización. Para calidad completa, use una A100 de 40 GB o mayor. Se soportan configuraciones multi-GPU.
Paso 1 — Alquila una GPU en Clore.ai
Ve a clore.ai e inicie sesión.
Haz clic Marketplace y filtre:
VRAM: ≥ 24 GB (mínimo RTX 4090, A100 recomendado)
Para multi-GPU: filtrar por cantidad de GPU ≥ 2
Seleccione su servidor y haga clic Configurar.
Establezca la imagen de Docker en
pytorch/pytorch:2.4.1-cuda12.4-cudnn9-devel(imagen base — instalamos Mochi dentro).Establecer puertos abiertos:
22(SSH) y7860(UI de Gradio).Haz clic Alquilar.
Clore.ai lista instancias A100 40 GB desde aproximadamente $0.60–$0.90/h. Para Mochi-1 a calidad completa, esta es la opción más rentable.
Paso 2 — Dockerfile personalizado
Construya su propia imagen o use este Dockerfile para crear un entorno Mochi-1 listo para usar:
Construir y publicar en Docker Hub
Construya la imagen localmente y púlsela en su propia cuenta de Docker Hub (reemplace YOUR_DOCKERHUB_USERNAME con tu nombre de usuario real):
Luego use YOUR_DOCKERHUB_USERNAME/mochi-1:latest como su imagen Docker en Clore.ai.
No existe una imagen Docker previamente construida oficial para Mochi-1 en Docker Hub. Necesita construirla desde el Dockerfile anterior. Alternativamente, use pytorch/pytorch:2.4.1-cuda12.4-cudnn9-devel como la imagen base directamente y ejecute los comandos de configuración manualmente vía SSH.
Paso 3 — Conéctate vía SSH
Una vez que tu instancia esté en funcionamiento:
Paso 4 — Descargar los pesos de Mochi-1
Los pesos del modelo están alojados en Hugging Face. Descárguelos vía el huggingface_hub CLI:
El modelo bf16 completo es aproximadamente 80 GB. La fp8 versión cuantizada es ~40 GB y se ejecuta en RTX 4090 (24 GB) con offloading a CPU. Especifique --include "*fp8*" para descargar solo los pesos cuantizados.
Alternativa: Descargar solo pesos cuantizados fp8
Paso 5 — Iniciar la demo de Gradio
Mochi-1 incluye una interfaz web Gradio para generación de texto a video fácil:
Para modo de baja VRAM (RTX 4090, 24 GB):
El --cpu_offload la bandera mueve capas del modelo a la RAM de la CPU cuando no están en uso, reduciendo el pico de VRAM a ~18–20 GB a costa de una generación ~2× más lenta.
Paso 6 — Acceder a la interfaz web
Abra su navegador y navegue a:
Verá la interfaz Gradio de Mochi-1 con:
Un campo de entrada para prompt de texto
Configuraciones de generación (steps, guidance scale, seed)
Reproductor de salida de video
Paso 7 — Genere su primer video
Prompts de ejemplo
Escena natural:
Escena de acción:
Abstracto/artístico:
Configuraciones recomendadas
Pasos
64
Escala de guía
4.5
Duración
5.1 segundos (por defecto)
Resolución
848×480 (nativa)
El tiempo de generación varía significativamente según la GPU. En una A100 80 GB, un video de 5 segundos toma aproximadamente 2–4 minutos. En RTX 4090 con offload a CPU, espere 8–15 minutos.
Uso de la API de Python
Para generación programática, use la pipeline de diffusers:
Script de generación por lotes
Inferencia multi-GPU
Para generación más rápida con múltiples GPUs:
Clore.ai ofrece servidores multi-GPU (2×, 4× RTX 4090 o A100). Con 2× A100 80 GB, el tiempo de generación baja a menos de 60 segundos para un clip de 5 segundos.
Solución de problemas
CUDA Fuera de memoria
Soluciones:
Añade
--cpu_offloadal comando gradioHabilitar VAE slicing:
pipe.enable_vae_slicing()Reducir
num_frames(pruebe 24 en lugar de 84)Use pesos cuantizados fp8 en lugar de bf16
Carga del modelo lenta
Solución: Asegúrese de que los pesos estén en una unidad NVMe rápida, no en HDD. Compruebe la velocidad de almacenamiento:
Artefactos de video / Parpadeo temporal
Soluciones:
Aumente los pasos de inferencia (pruebe 80–100)
Ajuste la escala de guía (el rango 3.5–5.0 suele ser el mejor)
Use una semilla específica para reproducibilidad e iteración
Puerto 7860 no accesible
Verifique que el puerto se abrió correctamente en Clore.ai y que el servidor Gradio está enlazando a 0.0.0.0:
Estimación de Costos
RTX 4090
24 GB
~$0.35/hr
~10–15 min
A100 40GB
40 GB
~$0.70/h
~3–5 min
A100 80GB
80 GB
~$1.20/h
~2–3 min
2× A100 80GB
160 GB
~$2.20/hr
~60–90 seg
Recomendaciones de GPU en Clore.ai
Mochi-1 exige mucha VRAM — el modelo de 10B de parámetros requiere una selección cuidadosa de GPU.
RTX 4090
24 GB
~$0.70/h
solo cuantizado fp8
~10–15 min
A100 40GB
40 GB
~$1.20/h
bf16 recomendado
~3–5 min
A100 80GB
80 GB
~$2.00/h
bf16 completo, rápido
~2–3 min
2× A100 80GB
160 GB
~$4.00/hr
paralelismo por tensores, el más rápido
~60–90 seg
RTX 3090 (24GB) no es recomendable — Mochi-1 en modo fp8 necesita 24GB como mínimo y deja casi sin margen. La RTX 4090 (24GB) funciona en fp8 pero con frecuencia da OOM en secuencias más largas. Empiece con A100 40GB para resultados fiables.
Mejor valor por calidad: A100 40GB a ~$1.20/hr genera un clip de 5 segundos en 3–5 minutos. Eso es ~$0.08–0.10 por clip de video — significativamente más barato que Runway ML ($0.25–0.50/clip) o suscripciones de Pika Labs.
Recursos Útiles
Última actualización
¿Te fue útil?