# Wan 2.2 VBVR (control de movimiento)

**Wan 2.2 VBVR** (Referencia de video basada en video) es la extensión de abril de 2026 de Alibaba al modelo fundacional de imagen a video Wan 2.2. Añade una nueva y potente capacidad: proporcionas un **clip de video de referencia** para controlar los patrones de movimiento en el video generado, no solo una imagen inicial. El resultado es una animación consistente y controlable: el mismo personaje, producto o escena sigue la trayectoria de movimiento de tu metraje de referencia.

Esta guía cubre el despliegue de Wan 2.2 VBVR mediante ComfyUI en una renta de GPU de Clore.ai.

***

## ¿Qué es VBVR (Referencia de video basada en video)?

Los modelos tradicionales de imagen a video toman una imagen estática y generan movimiento desde cero. El movimiento está guiado por tu indicación de texto, pero puede ser impredecible, especialmente para gestos específicos, movimientos de cámara o acciones de personajes.

**VBVR cambia las reglas del juego:** tú proporcionas:

1. Una **imagen inicial** — tu sujeto (personaje, producto, escena)
2. Una **video de movimiento de referencia** — un clip corto que demuestra el movimiento que quieres
3. Una **indicación de texto** — que describe el contenido y el estilo

El modelo extrae el patrón de movimiento del video de referencia y lo aplica a tu imagen inicial, generando un nuevo video en el que tu sujeto realiza ese movimiento de forma natural.

### Aplicaciones de ejemplo

| Imagen de entrada        | Movimiento de video de referencia     | Salida                               |
| ------------------------ | ------------------------------------- | ------------------------------------ |
| Foto de producto         | Mano recogiendo un objeto similar     | Animación de recogida de producto    |
| Ilustración de personaje | Ciclo de caminata de un actor         | Personaje caminando                  |
| Modelo de moda           | Metraje de pasarela                   | Ropa en movimiento                   |
| Exterior de un edificio  | Paneo de cámara desde metraje de dron | Revelación cinematográfica de B-roll |

***

## Descripción general del modelo

* **Nombre completo:** Wan 2.2 I2V-A14B con VBVR (Referencia de video basada en video)
* **Lanzado:** Abril de 2026 por Alibaba / el equipo Wan-AI
* **Basado en:** Wan 2.2 I2V-A14B (Imagen a video, 14B parámetros, hasta resolución 480p)
* **HuggingFace:** `Wan-AI/Wan2.2-I2V-A14B`
* **Flujo de trabajo VBVR:** distribuido a través de nodos de la comunidad del ComfyUI Manager
* **Licencia:** Apache 2.0

### Variantes

| Variante | VRAM requerida | Calidad     | Velocidad |
| -------- | -------------- | ----------- | --------- |
| **FP8**  | 16–24 GB       | Alta        | Rápida    |
| **BF16** | 24–40 GB       | La más alta | Moderada  |

La bandera **La variante FP8** funciona en una RTX 3090 (24 GB) y puede ajustarse en tarjetas de 16 GB con un tamaño de lote reducido. La **variante BF16** ofrece la mejor calidad y funciona cómodamente en una RTX 4090 (24 GB) o una A6000 (48 GB).

***

## Requisitos de hardware

| GPU        | VRAM  | Variante       | Precio en Clore.ai |
| ---------- | ----- | -------------- | ------------------ |
| RTX 3090   | 24 GB | FP8 ✅          | \~$0.30/día        |
| RTX 4090   | 24 GB | FP8 ✅ / BF16 ✅ | \~$0.50/día        |
| A6000 48GB | 48 GB | BF16 ✅         | \~$1.20/día        |
| A100 80GB  | 80 GB | BF16 ✅         | \~$2.50/día        |

Para la mayoría de los usuarios, una **RTX 4090 por \~$0.50/día** es el mejor equilibrio entre precio y calidad, ejecutando BF16 a la resolución completa de 480p.

***

## Configuración paso a paso en Clore.ai

### Paso 1: Alquila una GPU

Visita [clore.ai/marketplace](https://clore.ai/marketplace):

* **Presupuesto**: RTX 3090 (\~$0.30/día) — solo FP8
* **Recomendado**: RTX 4090 (\~$0.50/día) — calidad BF16
* **Premium**: A6000 (\~$1.20/día) — procesamiento por lotes, alto rendimiento

Usa una **imagen Docker de ComfyUI** o la imagen base de CUDA (instalaremos ComfyUI manualmente).

### Paso 2: Instala ComfyUI

```bash
# Clona ComfyUI
git clone https://github.com/comfyanonymous/ComfyUI.git /workspace/ComfyUI
cd /workspace/ComfyUI

# Instala las dependencias de Python
pip install -r requirements.txt

# Instala ComfyUI Manager (para facilitar la instalación de nodos)
cd custom_nodes
git clone https://github.com/ltdrdata/ComfyUI-Manager.git
cd ..
```

### Paso 3: Instala los nodos personalizados VBVR mediante ComfyUI Manager

Inicia ComfyUI:

```bash
cd /workspace/ComfyUI
python main.py --listen 0.0.0.0 --port 8188
```

Abre `http://YOUR_CLORE_IP:8188` en tu navegador. Luego:

1. Haz clic en el **botón Manager** (menú superior)
2. Busca **"Wan 2.2 VBVR"** o **"WanVideo"**
3. Instala el **ComfyUI-WanVideo** paquete de nodos
4. Reinicia ComfyUI después de la instalación

Como alternativa, instala los nodos directamente:

```bash
cd /workspace/ComfyUI/custom_nodes
git clone https://github.com/kijai/ComfyUI-WanVideoWrapper.git
pip install -r ComfyUI-WanVideoWrapper/requirements.txt
```

### Paso 4: Descarga los puntos de control del modelo

```bash
mkdir -p /workspace/ComfyUI/models/wan

# Descarga el modelo base Wan 2.2 I2V (~28GB)
huggingface-cli download \
  Wan-AI/Wan2.2-I2V-A14B \
  --local-dir /workspace/ComfyUI/models/wan/Wan2.2-I2V-A14B

# Descarga los pesos del codificador de movimiento específicos de VBVR (~2GB)
# Nota: los pesos VBVR se distribuyen como una versión comunitaria de ComfyUI-WanVideoWrapper.
# Consulta https://github.com/kijai/ComfyUI-WanVideoWrapper para la ruta de descarga actual.
huggingface-cli download \
  kijai/WanVideo-motion-encoder \
  --local-dir /workspace/ComfyUI/models/wan/vbvr-motion-encoder
```

> **Consejo:** Usa `huggingface-cli download --include "*.safetensors"` para omitir archivos no esenciales y ahorrar espacio en disco.

### Paso 5: Descarga el VAE y el codificador de texto

```bash
# Codificador de texto CLIP (compartido con Wan 2.2 base)
huggingface-cli download \
  Wan-AI/Wan2.2-I2V-A14B \
  --include "xlabs_clip*" \
  --local-dir /workspace/ComfyUI/models/clip

# Codificador de texto T5 XXL
huggingface-cli download \
  Wan-AI/Wan2.2-I2V-A14B \
  --include "t5*" \
  --local-dir /workspace/ComfyUI/models/t5

# VAE
huggingface-cli download \
  Wan-AI/Wan2.2-I2V-A14B \
  --include "Wan2.2_VAE.safetensors" \
  --local-dir /workspace/ComfyUI/models/vae
```

***

## Construyendo el flujo de trabajo VBVR en ComfyUI

### Resumen del flujo de trabajo

El flujo de trabajo VBVR conecta estos grupos de nodos:

```
[Cargar imagen] ──────────────────────────────────┐
                                               ↓
[Cargar video de referencia] → [Codificador de movimiento VBVR] → [Muestreador Wan I2V] → [Decodificar VAE] → [Guardar video]
                                               ↑
[Codificar texto CLIP] ────────────────────────────┘
```

### Cargando el flujo de trabajo

1. Descarga el JSON del flujo de trabajo VBVR preconstruido desde el repositorio de ComfyUI-WanVideoWrapper:

   ```
   custom_nodes/ComfyUI-WanVideoWrapper/workflows/wan22_vbvr.json
   ```
2. En ComfyUI: **Cargar** → selecciona `wan22_vbvr.json`

### Configuración de nodos clave

**WanVideoModelLoader**

* `model_path`: apunta a `Wan2.2-I2V-A14B`
* `precision`: `fp8_e4m3fn` para RTX 3090, `bf16` para RTX 4090+

**VBVRMotionEncoderLoader**

* `encoder_path`: apunta a `vbvr-motion-encoder`

**WanVideoSampler**

* `steps`: 25–30 (calidad), 15–20 (velocidad)
* `cfg`: 6.0–7.5 (más alto = más adherente al prompt)
* `motion_strength`: 0.6–0.9 (qué tan de cerca seguir el movimiento de referencia)
* `frames`: 25 (aprox. 2 segundos a 12 fps) o 49 (4 segundos)
* `resolution`: 832×480 (480p predeterminado)

**LoadVideo (Referencia)**

* Carga tu clip de movimiento de referencia (MP4, GIF o secuencia de imágenes)
* Recomendado: 2–5 segundos, con una duración aproximada similar a la de tu salida objetivo

***

## Ejecutando tu primera generación

### Prepara tus entradas

1. **Imagen inicial**: 832×480 px o cercana a eso. PNG o JPG. Este es tu sujeto.
2. **Video de movimiento de referencia**: idealmente 2–5 segundos, muestra el movimiento que quieres. La resolución no tiene que coincidir: el modelo extrae vectores de movimiento, no contenido de píxeles.
3. **Indicación de texto**: describe tu sujeto y lo que está haciendo (por ejemplo, `"una botella de producto girando suavemente sobre una superficie blanca, iluminación cinematográfica, 4K, fotografía profesional"`)

### Configuración recomendada para la primera ejecución

```yaml
steps: 25
cfg: 7.0
motion_strength: 0.75
frames: 25
seed: 42 (fijo para reproducibilidad)
```

### Estimaciones del tiempo de generación

| GPU       | Variante | Fotogramas    | Tiempo        |
| --------- | -------- | ------------- | ------------- |
| RTX 3090  | FP8      | 25 fotogramas | \~3–5 min     |
| RTX 4090  | BF16     | 25 fotogramas | \~2–4 min     |
| RTX 4090  | FP8      | 25 fotogramas | \~1.5–2.5 min |
| A100 80GB | BF16     | 49 fotogramas | \~3–5 min     |

***

## Flujos de trabajo prácticos

### Animación de personajes

1. **Imagen**: ilustración o foto del personaje
2. **Referencia**: metraje de un actor realizando la acción deseada (caminar, saludar, correr)
3. **Prompt**: `"personaje de dibujos animados caminando por un bosque, animación suave, estilo consistente"`
4. **motion\_strength**: 0.85 (alta fidelidad al movimiento de referencia)

### Demostración de producto

1. **Imagen**: toma limpia del producto sobre fondo blanco
2. **Referencia**: mano abriendo la caja o girando un producto similar
3. **Prompt**: `"revelación de producto premium, rotación de 360°, iluminación suave de estudio, calidad comercial"`
4. **motion\_strength**: 0.70 (algo de libertad creativa para la iluminación/entorno)

### B-roll cinematográfico

1. **Imagen**: foto de paisaje o exterior de un edificio
2. **Referencia**: metraje de dron o paneo de cámara de un clip de stock
3. **Prompt**: `"B-roll cinematográfico aéreo, hora dorada, movimiento suave de dron, calidad 4K"`
4. **motion\_strength**: 0.65 (deja que el modelo añada movimiento naturalista)

***

## Solución de problemas

**Memoria insuficiente en RTX 3090 con BF16**

* Cambia a la cuantización FP8 en WanVideoModelLoader
* Reduce los fotogramas de 25 a 17
* Desactiva el mosaico VAE si está habilitado

**El movimiento no coincide con el video de referencia**

* Aumenta `motion_strength` a 0.85–0.95
* Asegúrate de que el video de referencia esté recortado para coincidir con la duración objetivo
* Usa videos de referencia con movimiento claro y sin ambigüedades (evita el temblor de cámara)

**El video generado parpadea o tiene artefactos**

* Aumenta los pasos a 30
* Reduce el CFG a 6.0
* Usa un video de referencia con iluminación constante

**Descarga lenta / tiempo de espera de HuggingFace**

* Usa `HF_ENDPOINT=https://hf-mirror.com` variable de entorno para descargas más rápidas desde China
* O descarga mediante `aria2c` con múltiples conexiones

***

## Qué sigue: Wan 2.7

de Alibaba **Wan 2.7** es la próxima generación de la familia de modelos de video Wan, con:

* **Generación del primer + último fotograma**: especifica tanto el fotograma de apertura como el de cierre
* **Edición de video a video**: modifica un video existente con instrucciones de texto
* **Referencia de sujetos**: mantiene la apariencia consistente de objetos/personajes específicos a través de las escenas

Wan 2.7 está disponible actualmente a través de la API de Together AI. **Se esperan pesos de código abierto a mediados del segundo trimestre de 2026.** Se añadirá una guía completa de autohospedaje a este repositorio cuando se publiquen los pesos.

***

## Resumen

Wan 2.2 VBVR aporta control de movimiento guiado por referencia a la generación de video de código abierto. Proporciona una imagen inicial y un clip de movimiento de referencia, y el modelo genera un video consistente en el que tu sujeto sigue ese movimiento de forma natural. FP8 funciona en una RTX 3090 de 24 GB por \~$0.30/día; BF16 en una RTX 4090 por \~$0.50/día, ambos en Clore.ai.

**→** [**Renta una GPU en Clore.ai**](https://clore.ai/marketplace) y comienza a generar hoy mismo videos controlados por movimiento.


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-es/generacion-de-video/wan22-vbvr.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
