AnimateDiff
AnimateDiff est un module plug-and-play qui anime vos modèles Stable Diffusion existants sans aucun entraînement supplémentaire. Avec plus de 10 000 étoiles sur GitHub, c'est le cadre de référence pour transformer des checkpoints SD d'images fixes en générateurs vidéo fluides et temporellement cohérents. Exécutez-le sur une instance GPU Clore.ai en utilisant ComfyUI comme interface pour une flexibilité maximale.
Qu'est-ce qu'AnimateDiff ?
AnimateDiff insère un module de mouvement dans un U-Net Stable Diffusion gelé. Le module de mouvement est entraîné une fois sur des données vidéo et peut être combiné avec n'importe quel checkpoint SD 1.5 affiné — modèles DreamBooth, LoRA, adaptateurs ControlNet — sans réentraînement. Le résultat est de courts clips animés (généralement 16–32 images à 8 ips) qui préservent le style du modèle de base.
Points forts :
Fonctionne avec tout checkpoint SD 1.5 dès la sortie de l'emballage
Compatible avec ControlNet, IP-Adapter, LoRA et autres extensions
L'écosystème de nœuds ComfyUI fournit un contrôle complet du pipeline
Modules de mouvement SDXL disponibles pour une sortie à plus haute résolution
Zoo de modèles maintenu par la communauté avec des modules de mouvement spécifiques à des domaines
Prérequis
VRAM GPU
8 Go
16–24 Go
GPU
RTX 3080
RTX 4090 / A100
RAM
16 Go
32 Go
Stockage
20 Go
50+ Go
AnimateDiff avec une séquence standard de 16 images en 512×512 consomme environ 8–10 Go de VRAM. Pour du 768×768 ou des séquences plus longues, 16+ Go sont recommandés.
Étape 1 — Louez un GPU sur Clore.ai
Aller à clore.ai et connectez-vous.
Cliquez Place de marché et filtrez par VRAM (≥ 16 Go pour de meilleurs résultats).
Sélectionnez un serveur — RTX 4090 ou A6000 offrent le meilleur rapport qualité/prix.
Sous image Docker, saisissez votre image personnalisée (voir l'étape 2 ci-dessous).
Configurer ports ouverts:
22(SSH) et8188(interface web ComfyUI).Cliquez Louez et attendez que l'instance démarre (~1–2 minutes).
Utilisez le Avancé configuration de port pour mapper le port 8188 à un port public. Notez le port public attribué — vous l'utiliserez pour accéder à l'interface web ComfyUI.
Étape 2 — Image Docker
Il n'existe pas d'image Docker AnimateDiff officielle unique. L'approche recommandée est d'utiliser une image basée sur ComfyUI avec les nœuds AnimateDiff préinstallés.
Image publique recommandée :
Ou construisez la vôtre :
Étape 3 — Connectez-vous via SSH
Une fois l'instance en cours d'exécution, connectez-vous via SSH pour télécharger les modèles :
Remplacez <clore-host> et <assigned-ssh-port> avec les valeurs affichées dans votre tableau de bord Clore.ai.
Étape 4 — Télécharger les modèles
AnimateDiff nécessite au minimum un checkpoint de base SD 1.5 et un module de mouvement.
Télécharger le module de mouvement
Télécharger un checkpoint de base SD 1.5
Vous pouvez utiliser n'importe quel fine-tune SD 1.5. Les choix populaires incluent DreamShaper, Deliberate et Epicphotogasm. Téléchargez depuis CivitAI ou Hugging Face.
(Optionnel) Télécharger le module de mouvement SDXL
Étape 5 — Accéder à ComfyUI
Ouvrez votre navigateur et rendez-vous sur :
Vous devriez voir l'interface de l'éditeur de nœuds ComfyUI.
Ajoutez cette URL aux favoris. ComfyUI sauvegarde automatiquement votre workflow pendant que vous travaillez — pas besoin d'enregistrer manuellement sauf pour exporter en JSON.
Étape 6 — Charger un workflow AnimateDiff
Workflow AnimateDiff de base (JSON)
Dans ComfyUI, appuyez sur Charger et collez ou importez ce JSON de workflow, ou construisez-le manuellement avec ces nœuds :
Chaîne de nœuds principale :
Charger Checkpoint→ votre checkpoint SD 1.5CLIP Text Encode (Prompt)→ prompts positifs et négatifsAnimateDiff Loader→ sélectionnez votre module de mouvementKSampler (Efficient)→ paramètres d'échantillonnageVAE Decode→ décoder les latentsVideo Combine(VideoHelperSuite) → exporter en GIF/MP4
Paramètres d'échantillonnage recommandés
Steps
20–25
Échelle CFG
7–8
Échantillonneur
DPM++ 2M Karras
Largeur × Hauteur
512 × 512
Images
16
Longueur de contexte
16
Étape 7 — Lancez votre première animation
Dans le
CLIP Text Encodenœud, saisissez votre prompt :Dans le nœud de prompt négatif :
Dans
AnimateDiff Loader, sélectionnezv3_sd15_mm.ckptCliquez Mettre en file le prompt
Le temps de génération pour 16 images en 512×512 avec 20 étapes est d'environ 30–60 secondes sur un RTX 4090. Les séquences plus longues et les résolutions plus élevées augmentent linéairement.
Techniques avancées
Utiliser ControlNet avec AnimateDiff
AnimateDiff fonctionne avec ControlNet pour la génération vidéo guidée :
Ajouter un Appliquer ControlNet nœud entre Charger le modèle ControlNet et KSampler. Utilisez une image de squelette OpenPose comme entrée de conditionnement.
Prompt Travel (Animation par images-clés)
Le nœud AnimateDiff-Evolved prend en charge prompt travel — différents prompts texte à différentes images :
Ceci crée des transitions fluides entre les scènes sans animation par images-clés manuelle.
Utiliser LoRA avec AnimateDiff
Ajouter un Chargeur LoRA nœud pour appliquer des effets de mouvement de caméra : PanLeft, PanRight, ZoomIn, ZoomOut, RollingAnticlockwise.
Formats de sortie
AnimateDiff via VideoHelperSuite prend en charge :
GIF
Video Combine
Idéal pour le partage
MP4 (h264)
Video Combine
Taille de fichier la plus petite
WebP
Video Combine
Bon compromis qualité/taille
Images PNG
Enregistrer l’image
Pour le post-traitement
Dépannage
Mémoire insuffisante (CUDA OOM)
Solutions :
Réduire le nombre d'images (essayez 8 au lieu de 16)
Réduire la résolution (512×512 est le point idéal pour SD 1.5)
Activer
--lowvramoption dans la commande de démarrage de ComfyUIUtilisez
fp16précision dansCharger Checkpointnœud
Module de mouvement introuvable
Solution : Vérifiez le .ckpt fichier se trouve dans :
Actualisez la page ComfyUI pour recharger les modèles disponibles.
Scintillement / images incohérentes
Solutions :
Augmenter
context_lengthpour correspondre au nombre total d'imagesUtilisez
v3_sd15_mm.ckptau lieu de v2 (meilleure cohérence temporelle)Réduire l'échelle CFG (essayez 7 au lieu de 9)
Utilisez un échantillonneur à variance plus faible :
DPM++ 2M KarrasouEuler a
Connexion SSH refusée
Solution : Attendez 1–2 minutes que le démon SSH démarre, ou vérifiez si le conteneur s'est entièrement initialisé via les logs du tableau de bord Clore.ai.
Recommandations GPU Clore.ai
AnimateDiff utilise une architecture SD 1.5 — les exigences en VRAM sont modestes comparées aux modèles vidéo modernes, ce qui le rend économique.
RTX 3090
24 Go
~0,12 $/h
~50s
Meilleur rapport qualité/prix — exécutez plusieurs lots en file
RTX 4090
24 Go
~0,70 $/h
~30s
GPU grand public le plus rapide
A100 40GB
40 Go
~1,20 $/h
~18s
Surdimensionné pour SD 1.5, mais bon pour SDXL+AnimateDiff
RTX 3080 10 Go
10 Go
~$0.07/heure
~90s
Minimum économique — limité à 512px, clips plus courts
Le RTX 3090 est le point idéal pour AnimateDiff à ~0,12 $/heure. Une animation de 16 images prend ~50 secondes, ce qui signifie que vous pouvez générer plus de 70 clips par dollar dépensé. Pour une création de contenu à grand volume, mettez en file les lots dans ComfyUI et lancez pendant la nuit.
Utilisateurs SDXL AnimateDiff : Les modules de mouvement SDXL nécessitent 12 Go+ de VRAM pour du 768px. Les RTX 3090/4090 gèrent cela bien. Le RTX 3080 (10 Go) est trop limité pour les workflows SDXL.
Ressources utiles
Mis à jour
Ce contenu vous a-t-il été utile ?