Mochi-1 Video

Mochi-1 ist Genmos Open-Source-Videoerzeugungsmodell mit 10 Milliarden Parametern, das Ausgaben mit 848×480 @ 30 fps und physikalisch realistischem Bewegungsverlauf erzeugt. Es verwendet eine asymmetrische Diffusions-Transformer-Architektur (AsymmDiT) und gehört zu den qualitativ hochwertigsten Open-Source-Videomodellen hinsichtlich Bewegungsgenauigkeit. Setzen Sie es auf Clore.ais GPU-Cloud ein, um professionelle Videos zu einem Bruchteil der Kosten kommerzieller APIs zu erzeugen.


Was ist Mochi-1?

Mochi-1 ist ein 10-Milliarden-Parameter Video-Diffusionsmodell, das darauf trainiert wurde, Videos mit:

  • Sanfter, physikalisch plausibler Bewegung

  • Hoher zeitlicher Konsistenz

  • Starker Prompt-Treue

  • 848×480 Auflösung bei 30 fps

Es verwendet einen asymmetrischen Diffusions-Transformer (AsymmDiT)-Architektur — unterschiedliche Encoder-Tiefen für Video und Text — die effiziente Inferenz in großem Maßstab ermöglicht. Die Gewichte wurden unter der Genmo Open Source License veröffentlicht und sind kostenlos für Forschung und kommerzielle Nutzung.

Modell-Highlights:

  • 10B Parameter

  • Native Ausgabe 848×480 @ 30 fps

  • Hohe Bewegungsgenauigkeit (in Community-Benchmarks oben platziert)

  • Verfügbar auf Hugging Face mit Diffusers-Integration

  • Gradio-Demo-UI für einfache Interaktion


Voraussetzungen

Anforderung
Minimum
Empfohlen

GPU-VRAM

24 GB

40–80 GB

GPU

RTX 4090

A100 / H100

RAM

32 GB

64 GB

Speicher

60 GB

100 GB

CUDA

11.8+

12.1+

circle-exclamation

Schritt 1 — Mieten Sie eine GPU auf Clore.ai

  1. Gehe zu clore.aiarrow-up-right und melden Sie sich an.

  2. Klicken Sie Marktplatz und filtern:

    • VRAM: ≥ 24 GB (RTX 4090 Minimum, A100 empfohlen)

    • Für Multi-GPU: nach GPU-Anzahl ≥ 2 filtern

  3. Wählen Sie Ihren Server und klicken Sie Konfigurieren.

  4. Setzen Sie das Docker-Image auf pytorch/pytorch:2.4.1-cuda12.4-cudnn9-devel (Basis-Image — wir installieren Mochi darin).

  5. Offene Ports festlegen: 22 (SSH) und 7860 (Gradio-UI).

  6. Klicken Sie Mieten.

circle-info

Clore.ai listet A100-40-GB-Instanzen ab etwa ~$0.60–$0.90/Stunde. Für Mochi-1 in voller Qualität ist dies die kosteneffizienteste Wahl.


Schritt 2 — Benutzerdefiniertes Dockerfile

Bauen Sie Ihr eigenes Image oder verwenden Sie dieses Dockerfile um eine einsatzbereite Mochi-1-Umgebung zu erstellen:

Build und Push zu Docker Hub

Bauen Sie das Image lokal und pushen Sie es in Ihr eigenes Docker-Hub-Konto (ersetzen Sie YOUR_DOCKERHUB_USERNAME durch deinen tatsächlichen Benutzernamen):

Verwenden Sie dann YOUR_DOCKERHUB_USERNAME/mochi-1:latest als Ihr Docker-Image in Clore.ai.

circle-info

Es gibt kein offizielles vorgefertigtes Docker-Image für Mochi-1 auf Docker Hub. Sie müssen es aus dem obigen Dockerfile bauen. Alternativ verwenden Sie pytorch/pytorch:2.4.1-cuda12.4-cudnn9-devel als Basis-Image direkt und führen die Setup-Befehle manuell per SSH aus.


Schritt 3 — Verbindung per SSH

Sobald Ihre Instanz läuft:


Schritt 4 — Mochi-1-Gewichte herunterladen

Die Modellgewichte werden auf Hugging Face gehostet. Laden Sie sie über das huggingface_hub CLI:

circle-info

Das vollständige bf16-Modell ist ungefähr 80 GB groß. Die fp8 quantisierte Version ist ~40 GB und läuft auf RTX 4090 (24 GB) mit CPU-Offloading. Geben Sie --include "*fp8*" an, um nur quantisierte Gewichte herunterzuladen.

Alternative: Nur fp8-quantisierte Gewichte herunterladen


Schritt 5 — Starten der Gradio-Demo

Mochi-1 wird mit einer Gradio-Web-UI für einfache Text-zu-Video-Generierung ausgeliefert:

Für Low-VRAM-Modus (RTX 4090, 24 GB):

circle-info

Der --cpu_offload Flag verschiebt Modellschichten auf den CPU-RAM, wenn sie nicht verwendet werden, und reduziert die Spitzen-VRAM auf ~18–20 GB zum Preis einer etwa 2× langsameren Erzeugung.


Schritt 6 — Zugriff auf die Web-UI

Öffnen Sie Ihren Browser und navigieren Sie zu:

Sie sehen die Mochi-1-Gradio-Oberfläche mit:

  • Eingabefeld für Text-Prompt

  • Generierungseinstellungen (Schritte, Guidance-Scale, Seed)

  • Video-Ausgabespieler


Schritt 7 — Generieren Sie Ihr erstes Video

Beispiel-Prompts

Naturszene:

Action-Szene:

Abstrakt/künstlerisch:

Empfohlene Einstellungen

Parameter
Wert

Schritte

64

Guidance Scale

4.5

Dauer

5,1 Sekunden (Standard)

Auflösung

848×480 (nativ)

circle-info

Die Generierungszeit variiert stark je nach GPU. Auf einer A100 80 GB benötigt ein 5-Sekunden-Video ungefähr 2–4 Minuten. Auf einer RTX 4090 mit CPU-Offload rechnen Sie mit 8–15 Minuten.


Python-API-Verwendung

Für programmatische Erzeugung verwenden Sie die Diffusers-Pipeline:

Batch-Generierungsskript


Multi-GPU-Inferenz

Für schnellere Erzeugung mit mehreren GPUs:

circle-info

Clore.ai bietet Multi-GPU-Server (2×, 4× RTX 4090 oder A100). Mit 2× A100 80 GB sinkt die Generierungszeit für einen 5-Sekunden-Clip auf unter 60 Sekunden.


Fehlerbehebung

CUDA Out of Memory

Lösungen:

  1. Fügen Sie --cpu_offload an den Gradio-Befehl

  2. VAE-Slicing aktivieren: pipe.enable_vae_slicing()

  3. Reduzieren Sie num_frames (versuchen Sie 24 statt 84)

  4. Verwenden Sie fp8-quantisierte Gewichte statt bf16

Langsames Laden des Modells

Lösung: Stellen Sie sicher, dass die Gewichte auf einer schnellen NVMe-Festplatte liegen, nicht auf einer HDD. Überprüfen Sie die Speicherleistung:

Videoartefakte / zeitliches Flackern

Lösungen:

  • Erhöhen Sie die Inferenzschritte (versuchen Sie 80–100)

  • Passen Sie die Guidance-Scale an (Bereich 3.5–5.0 ist in der Regel am besten)

  • Verwenden Sie einen spezifischen Seed für Reproduzierbarkeit und Iteration

Port 7860 nicht zugänglich

Überprüfen Sie, dass der Port in Clore.ai korrekt geöffnet wurde und der Gradio-Server an 0.0.0.0:


Kostenabschätzung

GPU
VRAM
Geschätzter Preis
5s Videolänge

RTX 4090

24 GB

~$0.35/Stunde

~10–15 min

A100 40GB

40 GB

~$0.70/Stunde

~3–5 min

A100 80GB

80 GB

~$1.20/Stunde

~2–3 min

2× A100 80GB

160 GB

~$2.20/hr

~60–90 sec


Clore.ai GPU-Empfehlungen

Mochi-1 ist VRAM-hungrig — das 10B-Parameter-Modell erfordert eine sorgfältige GPU-Auswahl.

GPU
VRAM
Clore.ai-Preis
Modus
5s Video-Generierungszeit

RTX 4090

24 GB

~$0.70/Stunde

nur fp8-quantisiert

~10–15 min

A100 40GB

40 GB

~$1.20/Stunde

bf16 empfohlen

~3–5 min

A100 80GB

80 GB

~$2.00/Stunde

volles bf16, schnell

~2–3 min

2× A100 80GB

160 GB

~$4.00/hr

Tensor-Parallel, am schnellsten

~60–90 sec

circle-exclamation

Bestes Preis-Leistungs-Verhältnis für Qualität: A100 40GB für etwa ~$1.20/Stunde erzeugt einen 5-Sekunden-Clip in 3–5 Minuten. Das sind etwa ~$0.08–0.10 pro Videoclip — deutlich günstiger als Runway ML ($0.25–0.50/Clip) oder Pika Labs-Abonnements.


Nützliche Ressourcen

Zuletzt aktualisiert

War das hilfreich?