AnimateDiff
AnimateDiff es un módulo plug-and-play que anima tus modelos existentes de Stable Diffusion sin necesidad de entrenamiento adicional. Con más de 10.000 estrellas en GitHub, es el marco de referencia para convertir puntos de control de SD de imágenes estáticas en generadores de vídeo suaves y temporalmente coherentes. Ejecútalo en una instancia GPU de Clore.ai usando ComfyUI como interfaz para máxima flexibilidad.
¿Qué es AnimateDiff?
AnimateDiff inserta un módulo de movimiento en una U-Net de Stable Diffusion congelada. El módulo de movimiento se entrena una vez con datos de vídeo y puede combinarse con cualquier punto de control afinado de SD 1.5 — modelos DreamBooth, LoRAs, adaptadores ControlNet — sin volver a entrenar. El resultado son clips animados cortos (típicamente 16–32 fotogramas a 8 fps) que preservan el estilo del modelo base.
Aspectos destacados:
Funciona con cualquier punto de control SD 1.5 listo para usar
Compatible con ControlNet, IP-Adapter, LoRAs y otras extensiones
El ecosistema de nodos de ComfyUI ofrece control completo del pipeline
Módulos de movimiento SDXL disponibles para salida de mayor resolución
Zoo de modelos mantenido por la comunidad con módulos de movimiento específicos por dominio
Prerrequisitos
VRAM GPU
8 GB
16–24 GB
GPU
RTX 3080
RTX 4090 / A100
RAM
16 GB
32 GB
Almacenamiento
20 GB
50+ GB
AnimateDiff con una secuencia estándar de 16 fotogramas a 512×512 consume aproximadamente 8–10 GB de VRAM. Para 768×768 o secuencias más largas, se recomiendan 16+ GB.
Paso 1 — Alquila una GPU en Clore.ai
Ve a clore.ai e inicie sesión.
Haz clic Marketplace y filtrar por VRAM (≥ 16 GB para mejores resultados).
Selecciona un servidor — RTX 4090 o A6000 ofrecen la mejor relación precio/rendimiento.
Bajo imagen Docker, introduce tu imagen personalizada (ver Paso 2 abajo).
Configurar puertos abiertos:
22(SSH) y8188(Interfaz web de ComfyUI).Haz clic Alquilar y espera a que la instancia arranque (~1–2 minutos).
Usa la Avanzado configuración de puerto para mapear el puerto 8188 a un puerto público. Anota el puerto público asignado: lo usarás para acceder a la interfaz web de ComfyUI.
Paso 2 — Imagen Docker
No existe una única imagen Docker oficial de AnimateDiff. El enfoque recomendado es usar una imagen basada en ComfyUI con los nodos de AnimateDiff preinstalados.
Imagen pública recomendada:
O construye la tuya:
Paso 3 — Conéctate vía SSH
Una vez que la instancia esté en funcionamiento, conéctate vía SSH para descargar modelos:
Reemplaza <clore-host> y <assigned-ssh-port> con los valores mostrados en tu panel de Clore.ai.
Paso 4 — Descargar Modelos
AnimateDiff requiere como mínimo un punto de control base SD 1.5 y un módulo de movimiento.
Descargar Módulo de Movimiento
Descargar un Punto de Control Base SD 1.5
Puedes usar cualquier fine-tune de SD 1.5. Las opciones populares incluyen DreamShaper, Deliberate y Epicphotogasm. Descarga desde CivitAI o Hugging Face.
(Opcional) Descargar Módulo de Movimiento SDXL
Paso 5 — Acceder a ComfyUI
Abra su navegador y navegue a:
Deberías ver la interfaz del editor de nodos de ComfyUI.
Añade esta URL a favoritos. ComfyUI guarda automáticamente tu flujo de trabajo mientras trabajas — no es necesario guardar manualmente a menos que exportes JSON.
Paso 6 — Cargar un Flujo de Trabajo de AnimateDiff
Flujo de Trabajo Básico de AnimateDiff (JSON)
En ComfyUI, presiona Cargar y pega o importa este JSON de flujo de trabajo, o constrúyelo manualmente con estos nodos:
Cadena de nodos principal:
Cargar Punto de Control→ tu punto de control SD 1.5CLIP Text Encode (Prompt)→ prompts positivos y negativosAnimateDiff Loader→ selecciona tu módulo de movimientoKSampler (Efficient)→ ajustes de muestreoVAE Decode→ decodificar latentesVideo Combine(VideoHelperSuite) → exportar como GIF/MP4
Ajustes de Muestreo Recomendados
Pasos
20–25
Escala CFG
7–8
Sampler
DPM++ 2M Karras
Ancho × Alto
512 × 512
Fotogramas
16
Longitud de Contexto
16
Paso 7 — Ejecuta Tu Primera Animación
En el
CLIP Text Encodenodo, introduce tu prompt:En el nodo de prompt negativo:
En
AnimateDiff Loader, seleccionav3_sd15_mm.ckptHaz clic Poner en cola Prompt
El tiempo de generación para 16 fotogramas a 512×512 con 20 pasos es aproximadamente 30–60 segundos en una RTX 4090. Secuencias más largas y resoluciones más altas escalan linealmente.
Técnicas Avanzadas
Usando ControlNet con AnimateDiff
AnimateDiff funciona con ControlNet para generación de vídeo guiada:
Agrega un Aplicar ControlNet nodo entre Cargar Modelo ControlNet y KSampler. Usa una imagen de esqueleto OpenPose como entrada de condicionamiento.
Prompt Travel (Animación por fotogramas clave)
El nodo AnimateDiff-Evolved soporta prompt travel — diferentes prompts de texto en distintos fotogramas:
Esto crea transiciones suaves entre escenas sin fotogramado manual.
Usando LoRA con AnimateDiff
Agrega un LoRA Loader nodo para aplicar efectos de movimiento de cámara: PanLeft, PanRight, ZoomIn, ZoomOut, RollingAnticlockwise.
Formatos de Salida
AnimateDiff a través de VideoHelperSuite soporta:
GIF
Video Combine
Mejor para compartir
MP4 (h264)
Video Combine
Tamaño de archivo más pequeño
WebP
Video Combine
Buena calidad/tamaño
Fotogramas PNG
Guardar imagen
Para postprocesado
Solución de problemas
Fuera de Memoria (OOM de CUDA)
Soluciones:
Reduce el número de fotogramas (prueba 8 en lugar de 16)
Reduce la resolución (512×512 es el punto óptimo para SD 1.5)
Activa
--lowvrambandera en el comando de inicio de ComfyUIUsa
fp16precisión enCargar Punto de Controlnodo
Módulo de Movimiento No Encontrado
Solución: Verifica el .ckpt archivo está en:
Actualiza la página de ComfyUI para recargar los modelos disponibles.
Parpadeo / Fotogramas Inconsistentes
Soluciones:
Aumente
context_lengthpara coincidir con el recuento total de fotogramasUsa
v3_sd15_mm.ckpten lugar de v2 (mejor consistencia temporal)Reducir la escala CFG (prueba 7 en lugar de 9)
Usa un sampler de menor varianza:
DPM++ 2M KarrasoEuler a
Conexión SSH Rechazada
Solución: Espera 1–2 minutos a que el daemon SSH se inicie, o verifica si el contenedor se ha inicializado completamente mediante los registros del panel de Clore.ai.
Recomendaciones de GPU en Clore.ai
AnimateDiff usa la base SD 1.5 — los requisitos de VRAM son modestos comparados con modelos de vídeo modernos, lo que lo hace económico.
RTX 3090
24 GB
~$0.12/h
~50s
Mejor valor — ejecuta varios lotes en cola
RTX 4090
24 GB
~$0.70/h
~30 s
GPU de consumo más rápida
A100 40GB
40 GB
~$1.20/h
~18s
Excesivo para SD 1.5, pero bueno para SDXL+AnimateDiff
RTX 3080 10GB
10 GB
~$0.07/h
~90s
Mínimo económico — limitado a 512px, clips más cortos
RTX 3090 es el punto óptimo para AnimateDiff a ~ $0.12/h. Una animación de 16 fotogramas toma ~50 segundos, lo que significa que puedes generar más de 70 clips por dólar gastado. Para creación de contenido en alto volumen, pon en cola lotes en ComfyUI y ejecútalos durante la noche.
Usuarios de SDXL AnimateDiff: Los módulos de movimiento SDXL requieren 12GB+ de VRAM para 768px. RTX 3090/4090 manejan esto bien. RTX 3080 (10GB) es demasiado limitada para flujos de trabajo SDXL.
Recursos Útiles
Última actualización
¿Te fue útil?