Mochi-1 Vidéo
Mochi-1 est le modèle de génération vidéo open-source à 10 milliards de paramètres de Genmo produisant une sortie 848×480 @ 30 ips avec un mouvement physiquement réaliste. Il utilise une architecture de transformeur de diffusion asymétrique (AsymmDiT) et se classe parmi les modèles vidéo open-source de la plus haute qualité pour la fidélité du mouvement. Déployez-le sur le cloud GPU de Clore.ai pour générer des vidéos de qualité professionnelle à une fraction du coût des API commerciales.
Qu'est-ce que Mochi-1 ?
Mochi-1 est un modèle de 10 milliards de paramètres modèle de diffusion vidéo entraîné pour produire des vidéos avec :
Mouvement fluide et physiquement plausible
Forte cohérence temporelle
Bonne fidélité aux instructions (prompt)
Résolution 848×480 à 30 ips
Il utilise un transformeur de diffusion asymétrique (architecture AsymmDiT) — profondeurs d'encodeur différentes pour la vidéo et le texte — permettant une inférence efficace à grande échelle. Les poids sont publiés sous la Genmo Open Source License, gratuits pour la recherche et un usage commercial.
Points forts du modèle :
10 milliards de paramètres
Sortie native 848×480 @ 30 ips
Haute fidélité de mouvement (classé en tête dans les benchmarks communautaires)
Disponible sur Hugging Face avec intégration diffusers
Interface de démonstration Gradio pour une interaction facile
Prérequis
VRAM GPU
24 Go
40–80 Go
GPU
RTX 4090
A100 / H100
RAM
32 Go
64 Go
Stockage
60 Go
100 Go
CUDA
11.8+
12.1+
Mochi-1 est un grand modèle (≈40 Go en fp8 / ≈80 Go en bf16). Un seul RTX 4090 (24 Go) peut l'exécuter avec quantification. Pour une qualité complète, utilisez une A100 40 Go ou plus. Les configurations multi-GPU sont prises en charge.
Étape 1 — Louez un GPU sur Clore.ai
Aller à clore.ai et connectez-vous.
Cliquez Place de marché et filtrez :
VRAM : ≥ 24 Go (RTX 4090 minimum, A100 recommandé)
Pour multi-GPU : filtrez par nombre de GPU ≥ 2
Sélectionnez votre serveur et cliquez Configurer.
Définissez l'image Docker sur
pytorch/pytorch:2.4.1-cuda12.4-cudnn9-devel(image de base — nous installons Mochi à l'intérieur).Définir les ports ouverts :
22(SSH) et7860(UI Gradio).Cliquez Louez.
Clore.ai propose des instances A100 40 Go à partir d'environ 0,60–0,90 $/h. Pour Mochi-1 à pleine qualité, c'est le choix le plus rentable.
Étape 2 — Dockerfile personnalisé
Créez votre propre image ou utilisez ceci Dockerfile pour créer un environnement Mochi-1 prêt à l'emploi :
Construire et pousser sur Docker Hub
Construisez l'image localement et poussez-la sur votre propre compte Docker Hub (remplacez VOTRE_NOM_UTILISATEUR_DOCKERHUB par votre nom d'utilisateur réel) :
Puis utilisez YOUR_DOCKERHUB_USERNAME/mochi-1:latest comme votre image Docker sur Clore.ai.
Il n'existe pas d'image Docker préconstruite officielle pour Mochi-1 sur Docker Hub. Vous devez construire à partir du Dockerfile ci-dessus. Alternativement, utilisez pytorch/pytorch:2.4.1-cuda12.4-cudnn9-devel comme image de base directement et exécutez les commandes d'installation manuellement via SSH.
Étape 3 — Connectez-vous via SSH
Une fois votre instance en cours d'exécution :
Étape 4 — Télécharger les poids de Mochi-1
Les poids du modèle sont hébergés sur Hugging Face. Téléchargez-les via le huggingface_hub CLI :
Le modèle complet en bf16 fait approximativement 80 Go. La fp8 version quantifiée est ~40 Go et fonctionne sur RTX 4090 (24 Go) avec déchargement CPU. Spécifiez --include "*fp8*" pour ne télécharger que les poids quantifiés.
Alternative : télécharger uniquement les poids quantifiés fp8
Étape 5 — Lancer la démo Gradio
Mochi-1 est livré avec une interface web Gradio pour une génération texte-vidéo facile :
Pour le mode faible VRAM (RTX 4090, 24 Go) :
Le --cpu_offload le flag déplace les couches du modèle vers la RAM CPU lorsqu'elles ne sont pas utilisées, réduisant la VRAM de pointe à ~18–20 Go au prix d'une génération ~2× plus lente.
Étape 6 — Accéder à l'interface web
Ouvrez votre navigateur et rendez-vous sur :
Vous verrez l'interface Gradio de Mochi-1 avec :
Un champ d'entrée pour le prompt texte
Paramètres de génération (steps, guidance scale, seed)
Lecteur de sortie vidéo
Étape 7 — Générez votre première vidéo
Prompts d'exemple
Scène de nature :
Scène d'action :
Abstrait/artistique :
Paramètres recommandés
Steps
64
Guidance Scale
4.5
Durée
5,1 secondes (par défaut)
Résolution
848×480 (natif)
Le temps de génération varie significativement selon le GPU. Sur une A100 80 Go, une vidéo de 5 secondes prend environ 2–4 minutes. Sur RTX 4090 avec déchargement CPU, comptez 8–15 minutes.
Utilisation de l'API Python
Pour la génération programmatique, utilisez le pipeline diffusers :
Script de génération par lot
Inférence multi-GPU
Pour une génération plus rapide avec plusieurs GPUs :
Clore.ai propose des serveurs multi-GPU (2×, 4× RTX 4090 ou A100). Avec 2× A100 80 Go, le temps de génération descend à moins de 60 secondes pour un clip de 5 secondes.
Dépannage
CUDA : mémoire insuffisante
Solutions :
Ajouter
--cpu_offloadà la commande gradioActiver le découpage VAE :
pipe.enable_vae_slicing()Réduire
num_frames(essayez 24 au lieu de 84)Utilisez des poids quantifiés fp8 au lieu de bf16
Chargement lent du modèle
Solution : Assurez-vous que les poids sont sur un disque NVMe rapide, pas sur un HDD. Vérifiez la vitesse de stockage :
Artefacts vidéo / Scintillement temporel
Solutions :
Augmentez les étapes d'inférence (essayez 80–100)
Ajustez la guidance scale (la plage 3.5–5.0 est généralement la meilleure)
Utilisez une graine spécifique pour la reproductibilité et l'itération
Le port 7860 n'est pas accessible
Vérifiez que le port a été correctement ouvert dans Clore.ai et que le serveur Gradio se lie à 0.0.0.0:
Estimation des coûts
RTX 4090
24 Go
~0,35 $/h
~10–15 min
A100 40GB
40 Go
~0,70 $/h
~3–5 min
A100 80GB
80 Go
~1,20 $/h
~2–3 min
2× A100 80Go
160 Go
~2,20 $/h
~60–90 sec
Recommandations GPU Clore.ai
Mochi-1 est gourmand en VRAM — le modèle de 10 milliards de paramètres exige une sélection attentive du GPU.
RTX 4090
24 Go
~0,70 $/h
fp8 quantifié uniquement
~10–15 min
A100 40GB
40 Go
~1,20 $/h
bf16 recommandé
~3–5 min
A100 80GB
80 Go
~2,00 $/h
bf16 complet, rapide
~2–3 min
2× A100 80Go
160 Go
~4,00 $/h
parallélisme tensoriel, le plus rapide
~60–90 sec
RTX 3090 (24Go) n'est pas recommandé — Mochi-1 en mode fp8 nécessite 24 Go minimum et laisse presque aucune marge. Le RTX 4090 (24 Go) fonctionne en fp8 mais provoque fréquemment des OOM sur des séquences plus longues. Commencez avec une A100 40 Go pour des résultats fiables.
Meilleur rapport qualité/prix : Une A100 40Go à ~1,20 $/h génère un clip de 5 secondes en 3–5 minutes. Cela revient à ~0,08–0,10 $ par clip vidéo — considérablement moins cher que Runway ML (0,25–0,50 $/clip) ou les abonnements Pika Labs.
Ressources utiles
Mis à jour
Ce contenu vous a-t-il été utile ?