AnimateDiff

AnimateDiff est un module plug-and-play qui anime vos modèles Stable Diffusion existants sans aucun entraînement supplémentaire. Avec plus de 10 000 étoiles sur GitHub, c'est le cadre de référence pour transformer des checkpoints SD d'images fixes en générateurs vidéo fluides et temporellement cohérents. Exécutez-le sur une instance GPU Clore.ai en utilisant ComfyUI comme interface pour une flexibilité maximale.


Qu'est-ce qu'AnimateDiff ?

AnimateDiff insère un module de mouvement dans un U-Net Stable Diffusion gelé. Le module de mouvement est entraîné une fois sur des données vidéo et peut être combiné avec n'importe quel checkpoint SD 1.5 affiné — modèles DreamBooth, LoRA, adaptateurs ControlNet — sans réentraînement. Le résultat est de courts clips animés (généralement 16–32 images à 8 ips) qui préservent le style du modèle de base.

Points forts :

  • Fonctionne avec tout checkpoint SD 1.5 dès la sortie de l'emballage

  • Compatible avec ControlNet, IP-Adapter, LoRA et autres extensions

  • L'écosystème de nœuds ComfyUI fournit un contrôle complet du pipeline

  • Modules de mouvement SDXL disponibles pour une sortie à plus haute résolution

  • Zoo de modèles maintenu par la communauté avec des modules de mouvement spécifiques à des domaines


Prérequis

Exigence
Minimum
Recommandé

VRAM GPU

8 Go

16–24 Go

GPU

RTX 3080

RTX 4090 / A100

RAM

16 Go

32 Go

Stockage

20 Go

50+ Go

circle-info

AnimateDiff avec une séquence standard de 16 images en 512×512 consomme environ 8–10 Go de VRAM. Pour du 768×768 ou des séquences plus longues, 16+ Go sont recommandés.


Étape 1 — Louez un GPU sur Clore.ai

  1. Aller à clore.aiarrow-up-right et connectez-vous.

  2. Cliquez Place de marché et filtrez par VRAM (≥ 16 Go pour de meilleurs résultats).

  3. Sélectionnez un serveur — RTX 4090 ou A6000 offrent le meilleur rapport qualité/prix.

  4. Sous image Docker, saisissez votre image personnalisée (voir l'étape 2 ci-dessous).

  5. Configurer ports ouverts: 22 (SSH) et 8188 (interface web ComfyUI).

  6. Cliquez Louez et attendez que l'instance démarre (~1–2 minutes).

circle-info

Utilisez le Avancé configuration de port pour mapper le port 8188 à un port public. Notez le port public attribué — vous l'utiliserez pour accéder à l'interface web ComfyUI.


Étape 2 — Image Docker

Il n'existe pas d'image Docker AnimateDiff officielle unique. L'approche recommandée est d'utiliser une image basée sur ComfyUI avec les nœuds AnimateDiff préinstallés.

Image publique recommandée :

Ou construisez la vôtre :


Étape 3 — Connectez-vous via SSH

Une fois l'instance en cours d'exécution, connectez-vous via SSH pour télécharger les modèles :

Remplacez <clore-host> et <assigned-ssh-port> avec les valeurs affichées dans votre tableau de bord Clore.ai.


Étape 4 — Télécharger les modèles

AnimateDiff nécessite au minimum un checkpoint de base SD 1.5 et un module de mouvement.

Télécharger le module de mouvement

Télécharger un checkpoint de base SD 1.5

circle-info

Vous pouvez utiliser n'importe quel fine-tune SD 1.5. Les choix populaires incluent DreamShaper, Deliberate et Epicphotogasm. Téléchargez depuis CivitAI ou Hugging Face.

(Optionnel) Télécharger le module de mouvement SDXL


Étape 5 — Accéder à ComfyUI

Ouvrez votre navigateur et rendez-vous sur :

Vous devriez voir l'interface de l'éditeur de nœuds ComfyUI.

circle-info

Ajoutez cette URL aux favoris. ComfyUI sauvegarde automatiquement votre workflow pendant que vous travaillez — pas besoin d'enregistrer manuellement sauf pour exporter en JSON.


Étape 6 — Charger un workflow AnimateDiff

Workflow AnimateDiff de base (JSON)

Dans ComfyUI, appuyez sur Charger et collez ou importez ce JSON de workflow, ou construisez-le manuellement avec ces nœuds :

Chaîne de nœuds principale :

  1. Charger Checkpoint → votre checkpoint SD 1.5

  2. CLIP Text Encode (Prompt) → prompts positifs et négatifs

  3. AnimateDiff Loader → sélectionnez votre module de mouvement

  4. KSampler (Efficient) → paramètres d'échantillonnage

  5. VAE Decode → décoder les latents

  6. Video Combine (VideoHelperSuite) → exporter en GIF/MP4

Paramètres d'échantillonnage recommandés

Paramètre
Valeur

Steps

20–25

Échelle CFG

7–8

Échantillonneur

DPM++ 2M Karras

Largeur × Hauteur

512 × 512

Images

16

Longueur de contexte

16


Étape 7 — Lancez votre première animation

  1. Dans le CLIP Text Encode nœud, saisissez votre prompt :

  2. Dans le nœud de prompt négatif :

  3. Dans AnimateDiff Loader, sélectionnez v3_sd15_mm.ckpt

  4. Cliquez Mettre en file le prompt

circle-info

Le temps de génération pour 16 images en 512×512 avec 20 étapes est d'environ 30–60 secondes sur un RTX 4090. Les séquences plus longues et les résolutions plus élevées augmentent linéairement.


Techniques avancées

Utiliser ControlNet avec AnimateDiff

AnimateDiff fonctionne avec ControlNet pour la génération vidéo guidée :

Ajouter un Appliquer ControlNet nœud entre Charger le modèle ControlNet et KSampler. Utilisez une image de squelette OpenPose comme entrée de conditionnement.

Prompt Travel (Animation par images-clés)

Le nœud AnimateDiff-Evolved prend en charge prompt travel — différents prompts texte à différentes images :

Ceci crée des transitions fluides entre les scènes sans animation par images-clés manuelle.

Utiliser LoRA avec AnimateDiff

Ajouter un Chargeur LoRA nœud pour appliquer des effets de mouvement de caméra : PanLeft, PanRight, ZoomIn, ZoomOut, RollingAnticlockwise.


Formats de sortie

AnimateDiff via VideoHelperSuite prend en charge :

Format
Nœud
Remarques

GIF

Video Combine

Idéal pour le partage

MP4 (h264)

Video Combine

Taille de fichier la plus petite

WebP

Video Combine

Bon compromis qualité/taille

Images PNG

Enregistrer l’image

Pour le post-traitement


Dépannage

Mémoire insuffisante (CUDA OOM)

Solutions :

  • Réduire le nombre d'images (essayez 8 au lieu de 16)

  • Réduire la résolution (512×512 est le point idéal pour SD 1.5)

  • Activer --lowvram option dans la commande de démarrage de ComfyUI

  • Utilisez fp16 précision dans Charger Checkpoint nœud

Module de mouvement introuvable

Solution : Vérifiez le .ckpt fichier se trouve dans :

Actualisez la page ComfyUI pour recharger les modèles disponibles.

Scintillement / images incohérentes

Solutions :

  • Augmenter context_length pour correspondre au nombre total d'images

  • Utilisez v3_sd15_mm.ckpt au lieu de v2 (meilleure cohérence temporelle)

  • Réduire l'échelle CFG (essayez 7 au lieu de 9)

  • Utilisez un échantillonneur à variance plus faible : DPM++ 2M Karras ou Euler a

Connexion SSH refusée

Solution : Attendez 1–2 minutes que le démon SSH démarre, ou vérifiez si le conteneur s'est entièrement initialisé via les logs du tableau de bord Clore.ai.


Recommandations GPU Clore.ai

AnimateDiff utilise une architecture SD 1.5 — les exigences en VRAM sont modestes comparées aux modèles vidéo modernes, ce qui le rend économique.

GPU
VRAM
Prix Clore.ai
16 images @ 512px
Remarques

RTX 3090

24 Go

~0,12 $/h

~50s

Meilleur rapport qualité/prix — exécutez plusieurs lots en file

RTX 4090

24 Go

~0,70 $/h

~30s

GPU grand public le plus rapide

A100 40GB

40 Go

~1,20 $/h

~18s

Surdimensionné pour SD 1.5, mais bon pour SDXL+AnimateDiff

RTX 3080 10 Go

10 Go

~$0.07/heure

~90s

Minimum économique — limité à 512px, clips plus courts

circle-info

Le RTX 3090 est le point idéal pour AnimateDiff à ~0,12 $/heure. Une animation de 16 images prend ~50 secondes, ce qui signifie que vous pouvez générer plus de 70 clips par dollar dépensé. Pour une création de contenu à grand volume, mettez en file les lots dans ComfyUI et lancez pendant la nuit.

Utilisateurs SDXL AnimateDiff : Les modules de mouvement SDXL nécessitent 12 Go+ de VRAM pour du 768px. Les RTX 3090/4090 gèrent cela bien. Le RTX 3080 (10 Go) est trop limité pour les workflows SDXL.


Ressources utiles

Mis à jour

Ce contenu vous a-t-il été utile ?