Mochi-1 Vidéo

Mochi-1 est le modèle de génération vidéo open-source à 10 milliards de paramètres de Genmo produisant une sortie 848×480 @ 30 ips avec un mouvement physiquement réaliste. Il utilise une architecture de transformeur de diffusion asymétrique (AsymmDiT) et se classe parmi les modèles vidéo open-source de la plus haute qualité pour la fidélité du mouvement. Déployez-le sur le cloud GPU de Clore.ai pour générer des vidéos de qualité professionnelle à une fraction du coût des API commerciales.


Qu'est-ce que Mochi-1 ?

Mochi-1 est un modèle de 10 milliards de paramètres modèle de diffusion vidéo entraîné pour produire des vidéos avec :

  • Mouvement fluide et physiquement plausible

  • Forte cohérence temporelle

  • Bonne fidélité aux instructions (prompt)

  • Résolution 848×480 à 30 ips

Il utilise un transformeur de diffusion asymétrique (architecture AsymmDiT) — profondeurs d'encodeur différentes pour la vidéo et le texte — permettant une inférence efficace à grande échelle. Les poids sont publiés sous la Genmo Open Source License, gratuits pour la recherche et un usage commercial.

Points forts du modèle :

  • 10 milliards de paramètres

  • Sortie native 848×480 @ 30 ips

  • Haute fidélité de mouvement (classé en tête dans les benchmarks communautaires)

  • Disponible sur Hugging Face avec intégration diffusers

  • Interface de démonstration Gradio pour une interaction facile


Prérequis

Exigence
Minimum
Recommandé

VRAM GPU

24 Go

40–80 Go

GPU

RTX 4090

A100 / H100

RAM

32 Go

64 Go

Stockage

60 Go

100 Go

CUDA

11.8+

12.1+

circle-exclamation

Étape 1 — Louez un GPU sur Clore.ai

  1. Aller à clore.aiarrow-up-right et connectez-vous.

  2. Cliquez Place de marché et filtrez :

    • VRAM : ≥ 24 Go (RTX 4090 minimum, A100 recommandé)

    • Pour multi-GPU : filtrez par nombre de GPU ≥ 2

  3. Sélectionnez votre serveur et cliquez Configurer.

  4. Définissez l'image Docker sur pytorch/pytorch:2.4.1-cuda12.4-cudnn9-devel (image de base — nous installons Mochi à l'intérieur).

  5. Définir les ports ouverts : 22 (SSH) et 7860 (UI Gradio).

  6. Cliquez Louez.

circle-info

Clore.ai propose des instances A100 40 Go à partir d'environ 0,60–0,90 $/h. Pour Mochi-1 à pleine qualité, c'est le choix le plus rentable.


Étape 2 — Dockerfile personnalisé

Créez votre propre image ou utilisez ceci Dockerfile pour créer un environnement Mochi-1 prêt à l'emploi :

Construire et pousser sur Docker Hub

Construisez l'image localement et poussez-la sur votre propre compte Docker Hub (remplacez VOTRE_NOM_UTILISATEUR_DOCKERHUB par votre nom d'utilisateur réel) :

Puis utilisez YOUR_DOCKERHUB_USERNAME/mochi-1:latest comme votre image Docker sur Clore.ai.

circle-info

Il n'existe pas d'image Docker préconstruite officielle pour Mochi-1 sur Docker Hub. Vous devez construire à partir du Dockerfile ci-dessus. Alternativement, utilisez pytorch/pytorch:2.4.1-cuda12.4-cudnn9-devel comme image de base directement et exécutez les commandes d'installation manuellement via SSH.


Étape 3 — Connectez-vous via SSH

Une fois votre instance en cours d'exécution :


Étape 4 — Télécharger les poids de Mochi-1

Les poids du modèle sont hébergés sur Hugging Face. Téléchargez-les via le huggingface_hub CLI :

circle-info

Le modèle complet en bf16 fait approximativement 80 Go. La fp8 version quantifiée est ~40 Go et fonctionne sur RTX 4090 (24 Go) avec déchargement CPU. Spécifiez --include "*fp8*" pour ne télécharger que les poids quantifiés.

Alternative : télécharger uniquement les poids quantifiés fp8


Étape 5 — Lancer la démo Gradio

Mochi-1 est livré avec une interface web Gradio pour une génération texte-vidéo facile :

Pour le mode faible VRAM (RTX 4090, 24 Go) :

circle-info

Le --cpu_offload le flag déplace les couches du modèle vers la RAM CPU lorsqu'elles ne sont pas utilisées, réduisant la VRAM de pointe à ~18–20 Go au prix d'une génération ~2× plus lente.


Étape 6 — Accéder à l'interface web

Ouvrez votre navigateur et rendez-vous sur :

Vous verrez l'interface Gradio de Mochi-1 avec :

  • Un champ d'entrée pour le prompt texte

  • Paramètres de génération (steps, guidance scale, seed)

  • Lecteur de sortie vidéo


Étape 7 — Générez votre première vidéo

Prompts d'exemple

Scène de nature :

Scène d'action :

Abstrait/artistique :

Paramètres recommandés

Paramètre
Valeur

Steps

64

Guidance Scale

4.5

Durée

5,1 secondes (par défaut)

Résolution

848×480 (natif)

circle-info

Le temps de génération varie significativement selon le GPU. Sur une A100 80 Go, une vidéo de 5 secondes prend environ 2–4 minutes. Sur RTX 4090 avec déchargement CPU, comptez 8–15 minutes.


Utilisation de l'API Python

Pour la génération programmatique, utilisez le pipeline diffusers :

Script de génération par lot


Inférence multi-GPU

Pour une génération plus rapide avec plusieurs GPUs :

circle-info

Clore.ai propose des serveurs multi-GPU (2×, 4× RTX 4090 ou A100). Avec 2× A100 80 Go, le temps de génération descend à moins de 60 secondes pour un clip de 5 secondes.


Dépannage

CUDA : mémoire insuffisante

Solutions :

  1. Ajouter --cpu_offload à la commande gradio

  2. Activer le découpage VAE : pipe.enable_vae_slicing()

  3. Réduire num_frames (essayez 24 au lieu de 84)

  4. Utilisez des poids quantifiés fp8 au lieu de bf16

Chargement lent du modèle

Solution : Assurez-vous que les poids sont sur un disque NVMe rapide, pas sur un HDD. Vérifiez la vitesse de stockage :

Artefacts vidéo / Scintillement temporel

Solutions :

  • Augmentez les étapes d'inférence (essayez 80–100)

  • Ajustez la guidance scale (la plage 3.5–5.0 est généralement la meilleure)

  • Utilisez une graine spécifique pour la reproductibilité et l'itération

Le port 7860 n'est pas accessible

Vérifiez que le port a été correctement ouvert dans Clore.ai et que le serveur Gradio se lie à 0.0.0.0:


Estimation des coûts

GPU
VRAM
Prix estimé
Temps pour une vidéo de 5 s

RTX 4090

24 Go

~0,35 $/h

~10–15 min

A100 40GB

40 Go

~0,70 $/h

~3–5 min

A100 80GB

80 Go

~1,20 $/h

~2–3 min

2× A100 80Go

160 Go

~2,20 $/h

~60–90 sec


Recommandations GPU Clore.ai

Mochi-1 est gourmand en VRAM — le modèle de 10 milliards de paramètres exige une sélection attentive du GPU.

GPU
VRAM
Prix Clore.ai
Mode
Temps de génération pour vidéo de 5 s

RTX 4090

24 Go

~0,70 $/h

fp8 quantifié uniquement

~10–15 min

A100 40GB

40 Go

~1,20 $/h

bf16 recommandé

~3–5 min

A100 80GB

80 Go

~2,00 $/h

bf16 complet, rapide

~2–3 min

2× A100 80Go

160 Go

~4,00 $/h

parallélisme tensoriel, le plus rapide

~60–90 sec

circle-exclamation

Meilleur rapport qualité/prix : Une A100 40Go à ~1,20 $/h génère un clip de 5 secondes en 3–5 minutes. Cela revient à ~0,08–0,10 $ par clip vidéo — considérablement moins cher que Runway ML (0,25–0,50 $/clip) ou les abonnements Pika Labs.


Ressources utiles

Mis à jour

Ce contenu vous a-t-il été utile ?