AnimateDiff

AnimateDiff es un módulo plug-and-play que anima tus modelos existentes de Stable Diffusion sin necesidad de entrenamiento adicional. Con más de 10.000 estrellas en GitHub, es el marco de referencia para convertir puntos de control de SD de imágenes estáticas en generadores de vídeo suaves y temporalmente coherentes. Ejecútalo en una instancia GPU de Clore.ai usando ComfyUI como interfaz para máxima flexibilidad.


¿Qué es AnimateDiff?

AnimateDiff inserta un módulo de movimiento en una U-Net de Stable Diffusion congelada. El módulo de movimiento se entrena una vez con datos de vídeo y puede combinarse con cualquier punto de control afinado de SD 1.5 — modelos DreamBooth, LoRAs, adaptadores ControlNet — sin volver a entrenar. El resultado son clips animados cortos (típicamente 16–32 fotogramas a 8 fps) que preservan el estilo del modelo base.

Aspectos destacados:

  • Funciona con cualquier punto de control SD 1.5 listo para usar

  • Compatible con ControlNet, IP-Adapter, LoRAs y otras extensiones

  • El ecosistema de nodos de ComfyUI ofrece control completo del pipeline

  • Módulos de movimiento SDXL disponibles para salida de mayor resolución

  • Zoo de modelos mantenido por la comunidad con módulos de movimiento específicos por dominio


Prerrequisitos

Requisito
Mínimo
Recomendado

VRAM GPU

8 GB

16–24 GB

GPU

RTX 3080

RTX 4090 / A100

RAM

16 GB

32 GB

Almacenamiento

20 GB

50+ GB

circle-info

AnimateDiff con una secuencia estándar de 16 fotogramas a 512×512 consume aproximadamente 8–10 GB de VRAM. Para 768×768 o secuencias más largas, se recomiendan 16+ GB.


Paso 1 — Alquila una GPU en Clore.ai

  1. Ve a clore.aiarrow-up-right e inicie sesión.

  2. Haz clic Marketplace y filtrar por VRAM (≥ 16 GB para mejores resultados).

  3. Selecciona un servidor — RTX 4090 o A6000 ofrecen la mejor relación precio/rendimiento.

  4. Bajo imagen Docker, introduce tu imagen personalizada (ver Paso 2 abajo).

  5. Configurar puertos abiertos: 22 (SSH) y 8188 (Interfaz web de ComfyUI).

  6. Haz clic Alquilar y espera a que la instancia arranque (~1–2 minutos).

circle-info

Usa la Avanzado configuración de puerto para mapear el puerto 8188 a un puerto público. Anota el puerto público asignado: lo usarás para acceder a la interfaz web de ComfyUI.


Paso 2 — Imagen Docker

No existe una única imagen Docker oficial de AnimateDiff. El enfoque recomendado es usar una imagen basada en ComfyUI con los nodos de AnimateDiff preinstalados.

Imagen pública recomendada:

O construye la tuya:


Paso 3 — Conéctate vía SSH

Una vez que la instancia esté en funcionamiento, conéctate vía SSH para descargar modelos:

Reemplaza <clore-host> y <assigned-ssh-port> con los valores mostrados en tu panel de Clore.ai.


Paso 4 — Descargar Modelos

AnimateDiff requiere como mínimo un punto de control base SD 1.5 y un módulo de movimiento.

Descargar Módulo de Movimiento

Descargar un Punto de Control Base SD 1.5

circle-info

Puedes usar cualquier fine-tune de SD 1.5. Las opciones populares incluyen DreamShaper, Deliberate y Epicphotogasm. Descarga desde CivitAI o Hugging Face.

(Opcional) Descargar Módulo de Movimiento SDXL


Paso 5 — Acceder a ComfyUI

Abra su navegador y navegue a:

Deberías ver la interfaz del editor de nodos de ComfyUI.

circle-info

Añade esta URL a favoritos. ComfyUI guarda automáticamente tu flujo de trabajo mientras trabajas — no es necesario guardar manualmente a menos que exportes JSON.


Paso 6 — Cargar un Flujo de Trabajo de AnimateDiff

Flujo de Trabajo Básico de AnimateDiff (JSON)

En ComfyUI, presiona Cargar y pega o importa este JSON de flujo de trabajo, o constrúyelo manualmente con estos nodos:

Cadena de nodos principal:

  1. Cargar Punto de Control → tu punto de control SD 1.5

  2. CLIP Text Encode (Prompt) → prompts positivos y negativos

  3. AnimateDiff Loader → selecciona tu módulo de movimiento

  4. KSampler (Efficient) → ajustes de muestreo

  5. VAE Decode → decodificar latentes

  6. Video Combine (VideoHelperSuite) → exportar como GIF/MP4

Ajustes de Muestreo Recomendados

Parámetro
Valor

Pasos

20–25

Escala CFG

7–8

Sampler

DPM++ 2M Karras

Ancho × Alto

512 × 512

Fotogramas

16

Longitud de Contexto

16


Paso 7 — Ejecuta Tu Primera Animación

  1. En el CLIP Text Encode nodo, introduce tu prompt:

  2. En el nodo de prompt negativo:

  3. En AnimateDiff Loader, selecciona v3_sd15_mm.ckpt

  4. Haz clic Poner en cola Prompt

circle-info

El tiempo de generación para 16 fotogramas a 512×512 con 20 pasos es aproximadamente 30–60 segundos en una RTX 4090. Secuencias más largas y resoluciones más altas escalan linealmente.


Técnicas Avanzadas

Usando ControlNet con AnimateDiff

AnimateDiff funciona con ControlNet para generación de vídeo guiada:

Agrega un Aplicar ControlNet nodo entre Cargar Modelo ControlNet y KSampler. Usa una imagen de esqueleto OpenPose como entrada de condicionamiento.

Prompt Travel (Animación por fotogramas clave)

El nodo AnimateDiff-Evolved soporta prompt travel — diferentes prompts de texto en distintos fotogramas:

Esto crea transiciones suaves entre escenas sin fotogramado manual.

Usando LoRA con AnimateDiff

Agrega un LoRA Loader nodo para aplicar efectos de movimiento de cámara: PanLeft, PanRight, ZoomIn, ZoomOut, RollingAnticlockwise.


Formatos de Salida

AnimateDiff a través de VideoHelperSuite soporta:

Formato
Nodo
Notas

GIF

Video Combine

Mejor para compartir

MP4 (h264)

Video Combine

Tamaño de archivo más pequeño

WebP

Video Combine

Buena calidad/tamaño

Fotogramas PNG

Guardar imagen

Para postprocesado


Solución de problemas

Fuera de Memoria (OOM de CUDA)

Soluciones:

  • Reduce el número de fotogramas (prueba 8 en lugar de 16)

  • Reduce la resolución (512×512 es el punto óptimo para SD 1.5)

  • Activa --lowvram bandera en el comando de inicio de ComfyUI

  • Usa fp16 precisión en Cargar Punto de Control nodo

Módulo de Movimiento No Encontrado

Solución: Verifica el .ckpt archivo está en:

Actualiza la página de ComfyUI para recargar los modelos disponibles.

Parpadeo / Fotogramas Inconsistentes

Soluciones:

  • Aumente context_length para coincidir con el recuento total de fotogramas

  • Usa v3_sd15_mm.ckpt en lugar de v2 (mejor consistencia temporal)

  • Reducir la escala CFG (prueba 7 en lugar de 9)

  • Usa un sampler de menor varianza: DPM++ 2M Karras o Euler a

Conexión SSH Rechazada

Solución: Espera 1–2 minutos a que el daemon SSH se inicie, o verifica si el contenedor se ha inicializado completamente mediante los registros del panel de Clore.ai.


Recomendaciones de GPU en Clore.ai

AnimateDiff usa la base SD 1.5 — los requisitos de VRAM son modestos comparados con modelos de vídeo modernos, lo que lo hace económico.

GPU
VRAM
Precio en Clore.ai
16 fotogramas @ 512px
Notas

RTX 3090

24 GB

~$0.12/h

~50s

Mejor valor — ejecuta varios lotes en cola

RTX 4090

24 GB

~$0.70/h

~30 s

GPU de consumo más rápida

A100 40GB

40 GB

~$1.20/h

~18s

Excesivo para SD 1.5, pero bueno para SDXL+AnimateDiff

RTX 3080 10GB

10 GB

~$0.07/h

~90s

Mínimo económico — limitado a 512px, clips más cortos

circle-info

RTX 3090 es el punto óptimo para AnimateDiff a ~ $0.12/h. Una animación de 16 fotogramas toma ~50 segundos, lo que significa que puedes generar más de 70 clips por dólar gastado. Para creación de contenido en alto volumen, pon en cola lotes en ComfyUI y ejecútalos durante la noche.

Usuarios de SDXL AnimateDiff: Los módulos de movimiento SDXL requieren 12GB+ de VRAM para 768px. RTX 3090/4090 manejan esto bien. RTX 3080 (10GB) es demasiado limitada para flujos de trabajo SDXL.


Recursos Útiles

Última actualización

¿Te fue útil?