Mochi-1 Video

Mochi-1 es el modelo de generación de video de código abierto de Genmo con 10 mil millones de parámetros que produce salida a 848×480 @ 30fps con movimiento físicamente realista. Utiliza una arquitectura de transformador de difusión asimétrica (AsymmDiT) y se encuentra entre los modelos de video de código abierto de mayor calidad en fidelidad de movimiento. Desplégalo en la nube GPU de Clore.ai para generar videos de calidad profesional a una fracción del costo de las API comerciales.


¿Qué es Mochi-1?

Mochi-1 es un modelo de 10 mil millones de parámetros modelo de difusión de video entrenado para producir videos con:

  • Movimiento suave y físicamente plausible

  • Alta consistencia temporal

  • Fuerte adherencia al prompt

  • Resolución 848×480 a 30 fps

Utiliza un transformador de difusión asimétrico (arquitectura AsymmDiT) — diferentes profundidades de codificador para video y texto — que permite inferencia eficiente a escala. Los pesos se publican bajo la Licencia de Código Abierto de Genmo, libres para uso de investigación y comercial.

Aspectos destacados del modelo:

  • 10B de parámetros

  • Salida nativa 848×480 @ 30 fps

  • Alta fidelidad de movimiento (clasificado entre los mejores en benchmarks comunitarios)

  • Disponible en Hugging Face con integración en diffusers

  • Interfaz demo en Gradio para interacción fácil


Prerrequisitos

Requisito
Mínimo
Recomendado

VRAM GPU

24 GB

40–80 GB

GPU

RTX 4090

A100 / H100

RAM

32 GB

64 GB

Almacenamiento

60 GB

100 GB

CUDA

11.8+

12.1+

circle-exclamation

Paso 1 — Alquila una GPU en Clore.ai

  1. Ve a clore.aiarrow-up-right e inicie sesión.

  2. Haz clic Marketplace y filtre:

    • VRAM: ≥ 24 GB (mínimo RTX 4090, A100 recomendado)

    • Para multi-GPU: filtrar por cantidad de GPU ≥ 2

  3. Seleccione su servidor y haga clic Configurar.

  4. Establezca la imagen de Docker en pytorch/pytorch:2.4.1-cuda12.4-cudnn9-devel (imagen base — instalamos Mochi dentro).

  5. Establecer puertos abiertos: 22 (SSH) y 7860 (UI de Gradio).

  6. Haz clic Alquilar.

circle-info

Clore.ai lista instancias A100 40 GB desde aproximadamente $0.60–$0.90/h. Para Mochi-1 a calidad completa, esta es la opción más rentable.


Paso 2 — Dockerfile personalizado

Construya su propia imagen o use este Dockerfile para crear un entorno Mochi-1 listo para usar:

Construir y publicar en Docker Hub

Construya la imagen localmente y púlsela en su propia cuenta de Docker Hub (reemplace YOUR_DOCKERHUB_USERNAME con tu nombre de usuario real):

Luego use YOUR_DOCKERHUB_USERNAME/mochi-1:latest como su imagen Docker en Clore.ai.

circle-info

No existe una imagen Docker previamente construida oficial para Mochi-1 en Docker Hub. Necesita construirla desde el Dockerfile anterior. Alternativamente, use pytorch/pytorch:2.4.1-cuda12.4-cudnn9-devel como la imagen base directamente y ejecute los comandos de configuración manualmente vía SSH.


Paso 3 — Conéctate vía SSH

Una vez que tu instancia esté en funcionamiento:


Paso 4 — Descargar los pesos de Mochi-1

Los pesos del modelo están alojados en Hugging Face. Descárguelos vía el huggingface_hub CLI:

circle-info

El modelo bf16 completo es aproximadamente 80 GB. La fp8 versión cuantizada es ~40 GB y se ejecuta en RTX 4090 (24 GB) con offloading a CPU. Especifique --include "*fp8*" para descargar solo los pesos cuantizados.

Alternativa: Descargar solo pesos cuantizados fp8


Paso 5 — Iniciar la demo de Gradio

Mochi-1 incluye una interfaz web Gradio para generación de texto a video fácil:

Para modo de baja VRAM (RTX 4090, 24 GB):

circle-info

El --cpu_offload la bandera mueve capas del modelo a la RAM de la CPU cuando no están en uso, reduciendo el pico de VRAM a ~18–20 GB a costa de una generación ~2× más lenta.


Paso 6 — Acceder a la interfaz web

Abra su navegador y navegue a:

Verá la interfaz Gradio de Mochi-1 con:

  • Un campo de entrada para prompt de texto

  • Configuraciones de generación (steps, guidance scale, seed)

  • Reproductor de salida de video


Paso 7 — Genere su primer video

Prompts de ejemplo

Escena natural:

Escena de acción:

Abstracto/artístico:

Configuraciones recomendadas

Parámetro
Valor

Pasos

64

Escala de guía

4.5

Duración

5.1 segundos (por defecto)

Resolución

848×480 (nativa)

circle-info

El tiempo de generación varía significativamente según la GPU. En una A100 80 GB, un video de 5 segundos toma aproximadamente 2–4 minutos. En RTX 4090 con offload a CPU, espere 8–15 minutos.


Uso de la API de Python

Para generación programática, use la pipeline de diffusers:

Script de generación por lotes


Inferencia multi-GPU

Para generación más rápida con múltiples GPUs:

circle-info

Clore.ai ofrece servidores multi-GPU (2×, 4× RTX 4090 o A100). Con 2× A100 80 GB, el tiempo de generación baja a menos de 60 segundos para un clip de 5 segundos.


Solución de problemas

CUDA Fuera de memoria

Soluciones:

  1. Añade --cpu_offload al comando gradio

  2. Habilitar VAE slicing: pipe.enable_vae_slicing()

  3. Reducir num_frames (pruebe 24 en lugar de 84)

  4. Use pesos cuantizados fp8 en lugar de bf16

Carga del modelo lenta

Solución: Asegúrese de que los pesos estén en una unidad NVMe rápida, no en HDD. Compruebe la velocidad de almacenamiento:

Artefactos de video / Parpadeo temporal

Soluciones:

  • Aumente los pasos de inferencia (pruebe 80–100)

  • Ajuste la escala de guía (el rango 3.5–5.0 suele ser el mejor)

  • Use una semilla específica para reproducibilidad e iteración

Puerto 7860 no accesible

Verifique que el puerto se abrió correctamente en Clore.ai y que el servidor Gradio está enlazando a 0.0.0.0:


Estimación de Costos

GPU
VRAM
Precio estimado
Tiempo de video de 5s

RTX 4090

24 GB

~$0.35/hr

~10–15 min

A100 40GB

40 GB

~$0.70/h

~3–5 min

A100 80GB

80 GB

~$1.20/h

~2–3 min

2× A100 80GB

160 GB

~$2.20/hr

~60–90 seg


Recomendaciones de GPU en Clore.ai

Mochi-1 exige mucha VRAM — el modelo de 10B de parámetros requiere una selección cuidadosa de GPU.

GPU
VRAM
Precio en Clore.ai
Modo
Tiempo de generación de video de 5s

RTX 4090

24 GB

~$0.70/h

solo cuantizado fp8

~10–15 min

A100 40GB

40 GB

~$1.20/h

bf16 recomendado

~3–5 min

A100 80GB

80 GB

~$2.00/h

bf16 completo, rápido

~2–3 min

2× A100 80GB

160 GB

~$4.00/hr

paralelismo por tensores, el más rápido

~60–90 seg

circle-exclamation

Mejor valor por calidad: A100 40GB a ~$1.20/hr genera un clip de 5 segundos en 3–5 minutos. Eso es ~$0.08–0.10 por clip de video — significativamente más barato que Runway ML ($0.25–0.50/clip) o suscripciones de Pika Labs.


Recursos Útiles

Última actualización

¿Te fue útil?