AnimateDiff
AnimateDiff ist ein Plug-and-Play-Modul, das deine vorhandenen Stable Diffusion-Modelle animiert ohne zusätzliches Training. Mit über 10.000 GitHub-Sternen ist es das bevorzugte Framework, um Standbild-SD-Checkpoints in flüssige, zeitlich konsistente Videogeneratoren zu verwandeln. Führe es auf einer Clore.ai-GPU-Instanz aus und verwende ComfyUI als Frontend für maximale Flexibilität.
Was ist AnimateDiff?
AnimateDiff fügt ein Bewegungsmodul in ein eingefrorenes Stable Diffusion U-Net ein. Das Bewegungsmodul wird einmal auf Videodaten trainiert und kann mit jedem feinabgestimmten SD‑1.5‑Checkpoint kombiniert werden — DreamBooth-Modelle, LoRAs, ControlNet‑Adapter — ohne erneutes Training. Das Ergebnis sind kurze animierte Clips (typischerweise 16–32 Frames bei 8 fps), die den Stil des Basismodells bewahren.
Wichtigste Höhepunkte:
Funktioniert sofort mit jedem SD‑1.5‑Checkpoint
Kompatibel mit ControlNet, IP‑Adapter, LoRAs und anderen Erweiterungen
ComfyUI-Knoten-Ökosystem bietet vollständige Pipeline-Kontrolle
SDXL-Bewegungsmodule verfügbar für Ausgaben mit höherer Auflösung
Community-gepflegter Modellzoo mit domänenspezifischen Bewegungsmodulen
Voraussetzungen
GPU-VRAM
8 GB
16–24 GB
GPU
RTX 3080
RTX 4090 / A100
RAM
16 GB
32 GB
Speicher
20 GB
50+ GB
AnimateDiff mit einer Standardsequenz von 16 Frames bei 512×512 verbraucht ungefähr 8–10 GB VRAM. Für 768×768 oder längere Sequenzen werden 16+ GB empfohlen.
Schritt 1 — Mieten Sie eine GPU auf Clore.ai
Gehe zu clore.ai und melden Sie sich an.
Klicken Sie Marktplatz und nach VRAM filtern (≥ 16 GB für beste Ergebnisse).
Wähle einen Server — RTX 4090 oder A6000 bieten das beste Preis-/Leistungsverhältnis.
Unter Docker-Image, gib dein eigenes Image ein (siehe Schritt 2 unten).
Konfigurieren offene Ports:
22(SSH) und8188(ComfyUI Web‑UI).Klicken Sie Mieten und warte, bis die Instanz startet (~1–2 Minuten).
Verwenden Sie die Fortgeschritten Port-Konfiguration, um Port 8188 auf einen öffentlichen Port abzubilden. Merke dir den zugewiesenen öffentlichen Port — du wirst ihn verwenden, um auf die ComfyUI-Weboberfläche zuzugreifen.
Schritt 2 — Docker-Image
Es gibt kein einzelnes offizielles AnimateDiff-Docker-Image. Der empfohlene Ansatz ist, ein ComfyUI-basiertes Image mit vorinstallierten AnimateDiff‑Knoten zu verwenden.
Empfohlenes öffentliches Image:
Oder baue dein eigenes:
Schritt 3 — Verbindung per SSH
Sobald die Instanz läuft, verbinde dich per SSH, um Modelle herunterzuladen:
Ersetzen Sie <clore-host> und <assigned-ssh-port> mit den Werten, die in deinem Clore.ai‑Dashboard angezeigt werden.
Schritt 4 — Modelle herunterladen
AnimateDiff benötigt mindestens einen Basis-SD‑1.5‑Checkpoint und ein Bewegungsmodul.
Bewegungsmodul herunterladen
Lade einen Basis‑SD‑1.5‑Checkpoint herunter
Du kannst jede SD‑1.5‑Feinabstimmung verwenden. Beliebte Optionen sind DreamShaper, Deliberate und Epicphotogasm. Lade sie von CivitAI oder Hugging Face herunter.
(Optional) SDXL‑Bewegungsmodul herunterladen
Schritt 5 — Zugriff auf ComfyUI
Öffnen Sie Ihren Browser und navigieren Sie zu:
Du solltest die ComfyUI-Knoten-Editor-Oberfläche sehen.
Lese dieses URL als Favorit ein. ComfyUI speichert deinen Workflow automatisch während der Arbeit — kein manuelles Speichern erforderlich, außer beim Exportieren von JSON.
Schritt 6 — Einen AnimateDiff‑Workflow laden
Basis‑AnimateDiff‑Workflow (JSON)
In ComfyUI drücke Laden und füge dieses Workflow‑JSON ein oder importiere es, oder baue es manuell mit diesen Knoten:
Kernknoten-Kette:
Checkpoint laden→ dein SD‑1.5‑CheckpointCLIP Text Encode (Prompt)→ positive und negative PromptsAnimateDiff Loader→ wähle dein BewegungsmodulKSampler (Efficient)→ Sampling‑EinstellungenVAE Decode→ Latents decodierenVideo Combine(VideoHelperSuite) → als GIF/MP4 exportieren
Empfohlene Sampling‑Einstellungen
Schritte
20–25
CFG‑Skalierung
7–8
Sampler
DPM++ 2M Karras
Breite × Höhe
512 × 512
Frames
16
Kontextlänge
16
Schritt 7 — Führe deine erste Animation aus
Im
CLIP Text EncodeKnoten, gib deinen Prompt ein:Im Negative Prompt‑Knoten:
In
AnimateDiff Loader, wählev3_sd15_mm.ckptKlicken Sie Prompt in die Warteschlange stellen
Die Generierungszeit für 16 Frames bei 512×512 mit 20 Schritten beträgt ungefähr 30–60 Sekunden auf einer RTX 4090. Längere Sequenzen und höhere Auflösungen skalieren linear.
Fortgeschrittene Techniken
Verwendung von ControlNet mit AnimateDiff
AnimateDiff funktioniert mit ControlNet für geführte Videogenerierung:
Fügen Sie einen ControlNet Apply Knoten zwischen ControlNet-Modell laden und KSampler. Verwende ein OpenPose-Skelettbild als Konditionierungseingabe.
Prompt-Travel (Keyframe‑Animation)
Der AnimateDiff‑Evolved‑Knoten unterstützt Prompt‑Travel — unterschiedliche Text‑Prompts in verschiedenen Frames:
Das erzeugt sanfte Übergänge zwischen Szenen ohne manuelles Keyframing.
Verwendung von LoRA mit AnimateDiff
Fügen Sie einen LoRA Loader Knoten, um Kamerabewegungseffekte anzuwenden: PanLeft, PanRight, ZoomIn, ZoomOut, RollingAnticlockwise.
Ausgabeformate
AnimateDiff unterstützt über VideoHelperSuite:
GIF
Video Combine
Am besten zum Teilen geeignet
MP4 (h264)
Video Combine
Kleinste Dateigröße
WebP
Video Combine
Gutes Verhältnis Qualität/Größe
PNG‑Frames
Bild speichern
Für Nachbearbeitung
Fehlerbehebung
Nicht genügend Speicher (CUDA OOM)
Lösungen:
Reduziere die Frame‑Anzahl (versuche 8 statt 16)
Reduziere die Auflösung (512×512 ist der Sweetspot für SD‑1.5)
Aktivieren Sie
--lowvramFlag in dem ComfyUI‑StartbefehlVerwende
fp16Präzision imCheckpoint ladenKnoten
Bewegungsmodul nicht gefunden
Lösung: Überprüfe die .ckpt Datei befindet sich in:
Aktualisiere die ComfyUI‑Seite, um verfügbare Modelle neu zu laden.
Flackern / Inkonsistente Frames
Lösungen:
Erhöhen
context_lengthum die Gesamtframe‑Anzahl anzupassenVerwende
v3_sd15_mm.ckptanstelle von v2 (bessere zeitliche Konsistenz)Niedrigere CFG‑Skala (versuche 7 statt 9)
Verwende einen Sampler mit geringerer Varianz:
DPM++ 2M KarrasoderEuler a
SSH‑Verbindung verweigert
Lösung: Warte 1–2 Minuten, bis der SSH‑Daemon gestartet ist, oder prüfe, ob der Container über die Clore.ai‑Dashboard‑Logs vollständig initialisiert wurde.
Clore.ai GPU-Empfehlungen
AnimateDiff verwendet SD‑1.5‑Backbone — die VRAM‑Anforderungen sind im Vergleich zu modernen Videomodellen moderat, wodurch es kosteneffizient ist.
RTX 3090
24 GB
~$0.12/Stunde
~50s
Bestes Preis‑Leistungs‑Verhältnis — mehrere Warteschlangen‑Batches ausführen
RTX 4090
24 GB
~$0.70/Stunde
~30s
Schnellste Consumer‑GPU
A100 40GB
40 GB
~$1.20/Stunde
~18s
Overkill für SD‑1.5, aber gut für SDXL+AnimateDiff
RTX 3080 10GB
10 GB
~$0.07/Stunde
~90s
Budget‑Minimum — beschränkt auf 512px, kürzere Clips
RTX 3090 ist der AnimateDiff‑Sweetspot bei ~$0.12/Stunde. Eine 16‑Frame‑Animation dauert ~50 Sekunden, das heißt, du kannst 70+ Clips pro ausgegebenem Dollar erzeugen. Für umfangreiche Inhaltserstellung Batch‑Warteschlangen in ComfyUI nutzen und über Nacht laufen lassen.
SDXL‑AnimateDiff‑Nutzer: Die SDXL‑Bewegungsmodule benötigen 12GB+ VRAM für 768px. RTX 3090/4090 bewältigen das gut. RTX 3080 (10GB) ist für SDXL‑Workflows zu begrenzt.
Nützliche Ressourcen
Zuletzt aktualisiert
War das hilfreich?