Mochi-1 Video
Mochi-1 ist Genmos Open-Source-Videoerzeugungsmodell mit 10 Milliarden Parametern, das Ausgaben mit 848×480 @ 30 fps und physikalisch realistischem Bewegungsverlauf erzeugt. Es verwendet eine asymmetrische Diffusions-Transformer-Architektur (AsymmDiT) und gehört zu den qualitativ hochwertigsten Open-Source-Videomodellen hinsichtlich Bewegungsgenauigkeit. Setzen Sie es auf Clore.ais GPU-Cloud ein, um professionelle Videos zu einem Bruchteil der Kosten kommerzieller APIs zu erzeugen.
Was ist Mochi-1?
Mochi-1 ist ein 10-Milliarden-Parameter Video-Diffusionsmodell, das darauf trainiert wurde, Videos mit:
Sanfter, physikalisch plausibler Bewegung
Hoher zeitlicher Konsistenz
Starker Prompt-Treue
848×480 Auflösung bei 30 fps
Es verwendet einen asymmetrischen Diffusions-Transformer (AsymmDiT)-Architektur — unterschiedliche Encoder-Tiefen für Video und Text — die effiziente Inferenz in großem Maßstab ermöglicht. Die Gewichte wurden unter der Genmo Open Source License veröffentlicht und sind kostenlos für Forschung und kommerzielle Nutzung.
Modell-Highlights:
10B Parameter
Native Ausgabe 848×480 @ 30 fps
Hohe Bewegungsgenauigkeit (in Community-Benchmarks oben platziert)
Verfügbar auf Hugging Face mit Diffusers-Integration
Gradio-Demo-UI für einfache Interaktion
Voraussetzungen
GPU-VRAM
24 GB
40–80 GB
GPU
RTX 4090
A100 / H100
RAM
32 GB
64 GB
Speicher
60 GB
100 GB
CUDA
11.8+
12.1+
Mochi-1 ist ein großes Modell (≈40 GB in fp8 / ≈80 GB in bf16). Eine einzelne RTX 4090 (24 GB) kann es mit Quantisierung betreiben. Für volle Qualität verwenden Sie eine A100 40 GB oder größer. Multi-GPU-Konfigurationen werden unterstützt.
Schritt 1 — Mieten Sie eine GPU auf Clore.ai
Gehe zu clore.ai und melden Sie sich an.
Klicken Sie Marktplatz und filtern:
VRAM: ≥ 24 GB (RTX 4090 Minimum, A100 empfohlen)
Für Multi-GPU: nach GPU-Anzahl ≥ 2 filtern
Wählen Sie Ihren Server und klicken Sie Konfigurieren.
Setzen Sie das Docker-Image auf
pytorch/pytorch:2.4.1-cuda12.4-cudnn9-devel(Basis-Image — wir installieren Mochi darin).Offene Ports festlegen:
22(SSH) und7860(Gradio-UI).Klicken Sie Mieten.
Clore.ai listet A100-40-GB-Instanzen ab etwa ~$0.60–$0.90/Stunde. Für Mochi-1 in voller Qualität ist dies die kosteneffizienteste Wahl.
Schritt 2 — Benutzerdefiniertes Dockerfile
Bauen Sie Ihr eigenes Image oder verwenden Sie dieses Dockerfile um eine einsatzbereite Mochi-1-Umgebung zu erstellen:
Build und Push zu Docker Hub
Bauen Sie das Image lokal und pushen Sie es in Ihr eigenes Docker-Hub-Konto (ersetzen Sie YOUR_DOCKERHUB_USERNAME durch deinen tatsächlichen Benutzernamen):
Verwenden Sie dann YOUR_DOCKERHUB_USERNAME/mochi-1:latest als Ihr Docker-Image in Clore.ai.
Es gibt kein offizielles vorgefertigtes Docker-Image für Mochi-1 auf Docker Hub. Sie müssen es aus dem obigen Dockerfile bauen. Alternativ verwenden Sie pytorch/pytorch:2.4.1-cuda12.4-cudnn9-devel als Basis-Image direkt und führen die Setup-Befehle manuell per SSH aus.
Schritt 3 — Verbindung per SSH
Sobald Ihre Instanz läuft:
Schritt 4 — Mochi-1-Gewichte herunterladen
Die Modellgewichte werden auf Hugging Face gehostet. Laden Sie sie über das huggingface_hub CLI:
Das vollständige bf16-Modell ist ungefähr 80 GB groß. Die fp8 quantisierte Version ist ~40 GB und läuft auf RTX 4090 (24 GB) mit CPU-Offloading. Geben Sie --include "*fp8*" an, um nur quantisierte Gewichte herunterzuladen.
Alternative: Nur fp8-quantisierte Gewichte herunterladen
Schritt 5 — Starten der Gradio-Demo
Mochi-1 wird mit einer Gradio-Web-UI für einfache Text-zu-Video-Generierung ausgeliefert:
Für Low-VRAM-Modus (RTX 4090, 24 GB):
Der --cpu_offload Flag verschiebt Modellschichten auf den CPU-RAM, wenn sie nicht verwendet werden, und reduziert die Spitzen-VRAM auf ~18–20 GB zum Preis einer etwa 2× langsameren Erzeugung.
Schritt 6 — Zugriff auf die Web-UI
Öffnen Sie Ihren Browser und navigieren Sie zu:
Sie sehen die Mochi-1-Gradio-Oberfläche mit:
Eingabefeld für Text-Prompt
Generierungseinstellungen (Schritte, Guidance-Scale, Seed)
Video-Ausgabespieler
Schritt 7 — Generieren Sie Ihr erstes Video
Beispiel-Prompts
Naturszene:
Action-Szene:
Abstrakt/künstlerisch:
Empfohlene Einstellungen
Schritte
64
Guidance Scale
4.5
Dauer
5,1 Sekunden (Standard)
Auflösung
848×480 (nativ)
Die Generierungszeit variiert stark je nach GPU. Auf einer A100 80 GB benötigt ein 5-Sekunden-Video ungefähr 2–4 Minuten. Auf einer RTX 4090 mit CPU-Offload rechnen Sie mit 8–15 Minuten.
Python-API-Verwendung
Für programmatische Erzeugung verwenden Sie die Diffusers-Pipeline:
Batch-Generierungsskript
Multi-GPU-Inferenz
Für schnellere Erzeugung mit mehreren GPUs:
Clore.ai bietet Multi-GPU-Server (2×, 4× RTX 4090 oder A100). Mit 2× A100 80 GB sinkt die Generierungszeit für einen 5-Sekunden-Clip auf unter 60 Sekunden.
Fehlerbehebung
CUDA Out of Memory
Lösungen:
Fügen Sie
--cpu_offloadan den Gradio-BefehlVAE-Slicing aktivieren:
pipe.enable_vae_slicing()Reduzieren Sie
num_frames(versuchen Sie 24 statt 84)Verwenden Sie fp8-quantisierte Gewichte statt bf16
Langsames Laden des Modells
Lösung: Stellen Sie sicher, dass die Gewichte auf einer schnellen NVMe-Festplatte liegen, nicht auf einer HDD. Überprüfen Sie die Speicherleistung:
Videoartefakte / zeitliches Flackern
Lösungen:
Erhöhen Sie die Inferenzschritte (versuchen Sie 80–100)
Passen Sie die Guidance-Scale an (Bereich 3.5–5.0 ist in der Regel am besten)
Verwenden Sie einen spezifischen Seed für Reproduzierbarkeit und Iteration
Port 7860 nicht zugänglich
Überprüfen Sie, dass der Port in Clore.ai korrekt geöffnet wurde und der Gradio-Server an 0.0.0.0:
Kostenabschätzung
RTX 4090
24 GB
~$0.35/Stunde
~10–15 min
A100 40GB
40 GB
~$0.70/Stunde
~3–5 min
A100 80GB
80 GB
~$1.20/Stunde
~2–3 min
2× A100 80GB
160 GB
~$2.20/hr
~60–90 sec
Clore.ai GPU-Empfehlungen
Mochi-1 ist VRAM-hungrig — das 10B-Parameter-Modell erfordert eine sorgfältige GPU-Auswahl.
RTX 4090
24 GB
~$0.70/Stunde
nur fp8-quantisiert
~10–15 min
A100 40GB
40 GB
~$1.20/Stunde
bf16 empfohlen
~3–5 min
A100 80GB
80 GB
~$2.00/Stunde
volles bf16, schnell
~2–3 min
2× A100 80GB
160 GB
~$4.00/hr
Tensor-Parallel, am schnellsten
~60–90 sec
RTX 3090 (24GB) wird nicht empfohlen — Mochi-1 im fp8-Modus benötigt mindestens 24 GB und lässt kaum Spielraum. Die RTX 4090 (24GB) funktioniert in fp8, läuft aber bei längeren Sequenzen häufig in OOM. Beginnen Sie mit einer A100 40GB für zuverlässige Ergebnisse.
Bestes Preis-Leistungs-Verhältnis für Qualität: A100 40GB für etwa ~$1.20/Stunde erzeugt einen 5-Sekunden-Clip in 3–5 Minuten. Das sind etwa ~$0.08–0.10 pro Videoclip — deutlich günstiger als Runway ML ($0.25–0.50/Clip) oder Pika Labs-Abonnements.
Nützliche Ressourcen
Zuletzt aktualisiert
War das hilfreich?