AnimateDiff

AnimateDiff ist ein Plug-and-Play-Modul, das deine vorhandenen Stable Diffusion-Modelle animiert ohne zusätzliches Training. Mit über 10.000 GitHub-Sternen ist es das bevorzugte Framework, um Standbild-SD-Checkpoints in flüssige, zeitlich konsistente Videogeneratoren zu verwandeln. Führe es auf einer Clore.ai-GPU-Instanz aus und verwende ComfyUI als Frontend für maximale Flexibilität.


Was ist AnimateDiff?

AnimateDiff fügt ein Bewegungsmodul in ein eingefrorenes Stable Diffusion U-Net ein. Das Bewegungsmodul wird einmal auf Videodaten trainiert und kann mit jedem feinabgestimmten SD‑1.5‑Checkpoint kombiniert werden — DreamBooth-Modelle, LoRAs, ControlNet‑Adapter — ohne erneutes Training. Das Ergebnis sind kurze animierte Clips (typischerweise 16–32 Frames bei 8 fps), die den Stil des Basismodells bewahren.

Wichtigste Höhepunkte:

  • Funktioniert sofort mit jedem SD‑1.5‑Checkpoint

  • Kompatibel mit ControlNet, IP‑Adapter, LoRAs und anderen Erweiterungen

  • ComfyUI-Knoten-Ökosystem bietet vollständige Pipeline-Kontrolle

  • SDXL-Bewegungsmodule verfügbar für Ausgaben mit höherer Auflösung

  • Community-gepflegter Modellzoo mit domänenspezifischen Bewegungsmodulen


Voraussetzungen

Anforderung
Minimum
Empfohlen

GPU-VRAM

8 GB

16–24 GB

GPU

RTX 3080

RTX 4090 / A100

RAM

16 GB

32 GB

Speicher

20 GB

50+ GB

circle-info

AnimateDiff mit einer Standardsequenz von 16 Frames bei 512×512 verbraucht ungefähr 8–10 GB VRAM. Für 768×768 oder längere Sequenzen werden 16+ GB empfohlen.


Schritt 1 — Mieten Sie eine GPU auf Clore.ai

  1. Gehe zu clore.aiarrow-up-right und melden Sie sich an.

  2. Klicken Sie Marktplatz und nach VRAM filtern (≥ 16 GB für beste Ergebnisse).

  3. Wähle einen Server — RTX 4090 oder A6000 bieten das beste Preis-/Leistungsverhältnis.

  4. Unter Docker-Image, gib dein eigenes Image ein (siehe Schritt 2 unten).

  5. Konfigurieren offene Ports: 22 (SSH) und 8188 (ComfyUI Web‑UI).

  6. Klicken Sie Mieten und warte, bis die Instanz startet (~1–2 Minuten).

circle-info

Verwenden Sie die Fortgeschritten Port-Konfiguration, um Port 8188 auf einen öffentlichen Port abzubilden. Merke dir den zugewiesenen öffentlichen Port — du wirst ihn verwenden, um auf die ComfyUI-Weboberfläche zuzugreifen.


Schritt 2 — Docker-Image

Es gibt kein einzelnes offizielles AnimateDiff-Docker-Image. Der empfohlene Ansatz ist, ein ComfyUI-basiertes Image mit vorinstallierten AnimateDiff‑Knoten zu verwenden.

Empfohlenes öffentliches Image:

Oder baue dein eigenes:


Schritt 3 — Verbindung per SSH

Sobald die Instanz läuft, verbinde dich per SSH, um Modelle herunterzuladen:

Ersetzen Sie <clore-host> und <assigned-ssh-port> mit den Werten, die in deinem Clore.ai‑Dashboard angezeigt werden.


Schritt 4 — Modelle herunterladen

AnimateDiff benötigt mindestens einen Basis-SD‑1.5‑Checkpoint und ein Bewegungsmodul.

Bewegungsmodul herunterladen

Lade einen Basis‑SD‑1.5‑Checkpoint herunter

circle-info

Du kannst jede SD‑1.5‑Feinabstimmung verwenden. Beliebte Optionen sind DreamShaper, Deliberate und Epicphotogasm. Lade sie von CivitAI oder Hugging Face herunter.

(Optional) SDXL‑Bewegungsmodul herunterladen


Schritt 5 — Zugriff auf ComfyUI

Öffnen Sie Ihren Browser und navigieren Sie zu:

Du solltest die ComfyUI-Knoten-Editor-Oberfläche sehen.

circle-info

Lese dieses URL als Favorit ein. ComfyUI speichert deinen Workflow automatisch während der Arbeit — kein manuelles Speichern erforderlich, außer beim Exportieren von JSON.


Schritt 6 — Einen AnimateDiff‑Workflow laden

Basis‑AnimateDiff‑Workflow (JSON)

In ComfyUI drücke Laden und füge dieses Workflow‑JSON ein oder importiere es, oder baue es manuell mit diesen Knoten:

Kernknoten-Kette:

  1. Checkpoint laden → dein SD‑1.5‑Checkpoint

  2. CLIP Text Encode (Prompt) → positive und negative Prompts

  3. AnimateDiff Loader → wähle dein Bewegungsmodul

  4. KSampler (Efficient) → Sampling‑Einstellungen

  5. VAE Decode → Latents decodieren

  6. Video Combine (VideoHelperSuite) → als GIF/MP4 exportieren

Empfohlene Sampling‑Einstellungen

Parameter
Wert

Schritte

20–25

CFG‑Skalierung

7–8

Sampler

DPM++ 2M Karras

Breite × Höhe

512 × 512

Frames

16

Kontextlänge

16


Schritt 7 — Führe deine erste Animation aus

  1. Im CLIP Text Encode Knoten, gib deinen Prompt ein:

  2. Im Negative Prompt‑Knoten:

  3. In AnimateDiff Loader, wähle v3_sd15_mm.ckpt

  4. Klicken Sie Prompt in die Warteschlange stellen

circle-info

Die Generierungszeit für 16 Frames bei 512×512 mit 20 Schritten beträgt ungefähr 30–60 Sekunden auf einer RTX 4090. Längere Sequenzen und höhere Auflösungen skalieren linear.


Fortgeschrittene Techniken

Verwendung von ControlNet mit AnimateDiff

AnimateDiff funktioniert mit ControlNet für geführte Videogenerierung:

Fügen Sie einen ControlNet Apply Knoten zwischen ControlNet-Modell laden und KSampler. Verwende ein OpenPose-Skelettbild als Konditionierungseingabe.

Prompt-Travel (Keyframe‑Animation)

Der AnimateDiff‑Evolved‑Knoten unterstützt Prompt‑Travel — unterschiedliche Text‑Prompts in verschiedenen Frames:

Das erzeugt sanfte Übergänge zwischen Szenen ohne manuelles Keyframing.

Verwendung von LoRA mit AnimateDiff

Fügen Sie einen LoRA Loader Knoten, um Kamerabewegungseffekte anzuwenden: PanLeft, PanRight, ZoomIn, ZoomOut, RollingAnticlockwise.


Ausgabeformate

AnimateDiff unterstützt über VideoHelperSuite:

Format
Knoten
Hinweise

GIF

Video Combine

Am besten zum Teilen geeignet

MP4 (h264)

Video Combine

Kleinste Dateigröße

WebP

Video Combine

Gutes Verhältnis Qualität/Größe

PNG‑Frames

Bild speichern

Für Nachbearbeitung


Fehlerbehebung

Nicht genügend Speicher (CUDA OOM)

Lösungen:

  • Reduziere die Frame‑Anzahl (versuche 8 statt 16)

  • Reduziere die Auflösung (512×512 ist der Sweetspot für SD‑1.5)

  • Aktivieren Sie --lowvram Flag in dem ComfyUI‑Startbefehl

  • Verwende fp16 Präzision im Checkpoint laden Knoten

Bewegungsmodul nicht gefunden

Lösung: Überprüfe die .ckpt Datei befindet sich in:

Aktualisiere die ComfyUI‑Seite, um verfügbare Modelle neu zu laden.

Flackern / Inkonsistente Frames

Lösungen:

  • Erhöhen context_length um die Gesamtframe‑Anzahl anzupassen

  • Verwende v3_sd15_mm.ckpt anstelle von v2 (bessere zeitliche Konsistenz)

  • Niedrigere CFG‑Skala (versuche 7 statt 9)

  • Verwende einen Sampler mit geringerer Varianz: DPM++ 2M Karras oder Euler a

SSH‑Verbindung verweigert

Lösung: Warte 1–2 Minuten, bis der SSH‑Daemon gestartet ist, oder prüfe, ob der Container über die Clore.ai‑Dashboard‑Logs vollständig initialisiert wurde.


Clore.ai GPU-Empfehlungen

AnimateDiff verwendet SD‑1.5‑Backbone — die VRAM‑Anforderungen sind im Vergleich zu modernen Videomodellen moderat, wodurch es kosteneffizient ist.

GPU
VRAM
Clore.ai-Preis
16 Frames @ 512px
Hinweise

RTX 3090

24 GB

~$0.12/Stunde

~50s

Bestes Preis‑Leistungs‑Verhältnis — mehrere Warteschlangen‑Batches ausführen

RTX 4090

24 GB

~$0.70/Stunde

~30s

Schnellste Consumer‑GPU

A100 40GB

40 GB

~$1.20/Stunde

~18s

Overkill für SD‑1.5, aber gut für SDXL+AnimateDiff

RTX 3080 10GB

10 GB

~$0.07/Stunde

~90s

Budget‑Minimum — beschränkt auf 512px, kürzere Clips

circle-info

RTX 3090 ist der AnimateDiff‑Sweetspot bei ~$0.12/Stunde. Eine 16‑Frame‑Animation dauert ~50 Sekunden, das heißt, du kannst 70+ Clips pro ausgegebenem Dollar erzeugen. Für umfangreiche Inhaltserstellung Batch‑Warteschlangen in ComfyUI nutzen und über Nacht laufen lassen.

SDXL‑AnimateDiff‑Nutzer: Die SDXL‑Bewegungsmodule benötigen 12GB+ VRAM für 768px. RTX 3090/4090 bewältigen das gut. RTX 3080 (10GB) ist für SDXL‑Workflows zu begrenzt.


Nützliche Ressourcen

Zuletzt aktualisiert

War das hilfreich?