# Wan 2.2 VBVR（运动控制）

**Wan 2.2 VBVR** （基于视频的视频参考）是阿里巴巴于 2026 年 4 月为 Wan 2.2 图生视频基础模型推出的扩展。它增加了一项强大的新能力：你可以提供一个 **参考视频片段** 来控制生成视频中的运动模式，而不仅仅是起始图像。结果是连贯且可控的动画——相同的角色、产品或场景会沿着参考素材中的运动路径进行运动。

本指南介绍如何通过 ComfyUI 在 Clore.ai 租用的 GPU 上部署 Wan 2.2 VBVR。

***

## 什么是 VBVR（基于视频的视频参考）？

传统的图生视频模型接收一张静态图像，并从零开始生成运动。运动会由你的文本提示引导，但它可能难以预测——尤其是在特定手势、镜头运动或角色动作方面。

**VBVR 改变了这一方式：** 你需要提供：

1. 一张 **起始图像** ——你的主体（角色、产品、场景）
2. 一张 **参考运动视频** ——一段展示你想要的运动的短片
3. 一张 **文本提示** ——用于描述内容和风格

模型会从参考视频中提取运动模式，并将其应用到你的起始图像上，生成一段新视频，使你的主体自然地执行该运动。

### 示例应用

| 输入图像 | 参考视频运动       | 输出              |
| ---- | ------------ | --------------- |
| 产品照片 | 手拿起类似物品      | 产品拿起动画          |
| 角色插画 | 演员行走循环       | 角色行走            |
| 时尚模特 | T 台走秀素材      | 运动中的服装          |
| 建筑外观 | 来自无人机素材的镜头平移 | 电影感 B-roll 揭示镜头 |

***

## 模型概览

* **全名：** 带 VBVR（基于视频的视频参考）的 Wan 2.2 I2V-A14B
* **发布时间：** 由阿里巴巴 / Wan-AI 团队于 2026 年 4 月发布
* **构建于：** Wan 2.2 I2V-A14B（图生视频，140 亿参数，最高支持 480p 分辨率）
* **HuggingFace：** `Wan-AI/Wan2.2-I2V-A14B`
* **VBVR 工作流：** 通过 ComfyUI Manager 社区节点分发
* **许可证：** Apache 2.0

### 变体

| 变体       | 所需显存     | 质量 | 速度 |
| -------- | -------- | -- | -- |
| **FP8**  | 16–24 GB | 高  | 快  |
| **BF16** | 24–40 GB | 最高 | 中等 |

该 **FP8 变体** 可在 RTX 3090（24 GB）上运行，并且在减小批量大小的情况下可勉强装入 16 GB 显卡。该 **BF16 变体** 可提供最佳质量，并能在 RTX 4090（24 GB）或 A6000（48 GB）上轻松运行。

***

## 硬件要求

| GPU        | 显存    | 变体             | Clore.ai 上的价格 |
| ---------- | ----- | -------------- | ------------- |
| RTX 3090   | 24 GB | FP8 ✅          | 约 $0.30/天     |
| RTX 4090   | 24 GB | FP8 ✅ / BF16 ✅ | 约 $0.50/天     |
| A6000 48GB | 48 GB | BF16 ✅         | 约 $1.20/天     |
| A100 80GB  | 80 GB | BF16 ✅         | 约 $2.50/天     |

对于大多数用户来说， **约 $0.50/天的 RTX 4090** 是在价格与质量之间最好的平衡，可用 BF16 以完整 480p 分辨率运行。

***

## 在 Clore.ai 上的分步设置

### 第 1 步：租用 GPU

访问 [clore.ai/marketplace](https://clore.ai/marketplace):

* **经济型**：RTX 3090（约 $0.30/天）——仅支持 FP8
* **推荐**：RTX 4090（约 $0.50/天）——BF16 质量
* **高级**：A6000（约 $1.20/天）——批处理、高吞吐量

使用一个 **ComfyUI Docker 镜像** 或基础 CUDA 镜像（我们将手动安装 ComfyUI）。

### 第 2 步：安装 ComfyUI

```bash
# 克隆 ComfyUI
git clone https://github.com/comfyanonymous/ComfyUI.git /workspace/ComfyUI
cd /workspace/ComfyUI

# 安装 Python 依赖
pip install -r requirements.txt

# 安装 ComfyUI Manager（便于安装节点）
cd custom_nodes
git clone https://github.com/ltdrdata/ComfyUI-Manager.git
cd ..
```

### 第 3 步：通过 ComfyUI Manager 安装 VBVR 自定义节点

启动 ComfyUI：

```bash
cd /workspace/ComfyUI
python main.py --listen 0.0.0.0 --port 8188
```

在浏览器中打开 `http://YOUR_CLORE_IP:8188` 。然后：

1. 点击 **Manager** 按钮（顶部菜单）
2. 搜索 **"Wan 2.2 VBVR"** 或 **"WanVideo"**
3. 安装 **ComfyUI-WanVideo** 节点包
4. 安装后重启 ComfyUI

或者，直接安装这些节点：

```bash
cd /workspace/ComfyUI/custom_nodes
git clone https://github.com/kijai/ComfyUI-WanVideoWrapper.git
pip install -r ComfyUI-WanVideoWrapper/requirements.txt
```

### 第 4 步：下载模型检查点

```bash
mkdir -p /workspace/ComfyUI/models/wan

# 下载 Wan 2.2 I2V 基础模型（约 28GB）
huggingface-cli download \
  Wan-AI/Wan2.2-I2V-A14B \
  --local-dir /workspace/ComfyUI/models/wan/Wan2.2-I2V-A14B

# 下载 VBVR 专用运动编码器权重（约 2GB）
# 注意：VBVR 权重作为 ComfyUI-WanVideoWrapper 社区发布版本进行分发。
# 请查看 https://github.com/kijai/ComfyUI-WanVideoWrapper 获取当前下载路径。
huggingface-cli download \
  kijai/WanVideo-motion-encoder \
  --local-dir /workspace/ComfyUI/models/wan/vbvr-motion-encoder
```

> **提示：** 使用 `huggingface-cli download --include "*.safetensors"` 以跳过非必要文件并节省磁盘空间。

### 第 5 步：下载 VAE 和文本编码器

```bash
# CLIP 文本编码器（与基础 Wan 2.2 共享）
huggingface-cli download \
  Wan-AI/Wan2.2-I2V-A14B \
  --include "xlabs_clip*" \
  --local-dir /workspace/ComfyUI/models/clip

# T5 XXL 文本编码器
huggingface-cli download \
  Wan-AI/Wan2.2-I2V-A14B \
  --include "t5*" \
  --local-dir /workspace/ComfyUI/models/t5

# VAE
huggingface-cli download \
  Wan-AI/Wan2.2-I2V-A14B \
  --include "Wan2.2_VAE.safetensors" \
  --local-dir /workspace/ComfyUI/models/vae
```

***

## 在 ComfyUI 中构建 VBVR 工作流

### 工作流概览

VBVR 工作流连接以下这些节点组：

```
[加载图像] ──────────────────────────────────┐
                                               ↓
[加载参考视频] → [VBVR 运动编码器] → [Wan I2V 采样器] → [VAE 解码] → [保存视频]
                                               ↑
[CLIP 文本编码] ────────────────────────────┘
```

### 加载工作流

1. 从 ComfyUI-WanVideoWrapper 仓库下载预构建的 VBVR 工作流 JSON：

   ```
   custom_nodes/ComfyUI-WanVideoWrapper/workflows/wan22_vbvr.json
   ```
2. 在 ComfyUI 中： **加载** → 选择 `wan22_vbvr.json`

### 配置关键节点

**WanVideoModelLoader**

* `model_path`：指向 `Wan2.2-I2V-A14B`
* `precision`: `fp8_e4m3fn` 用于 RTX 3090， `bf16` 用于 RTX 4090 及以上

**VBVRMotionEncoderLoader**

* `encoder_path`：指向 `vbvr-motion-encoder`

**WanVideoSampler**

* `steps`：25–30（质量），15–20（速度）
* `cfg`：6.0–7.5（越高 = 越遵循提示）
* `motion_strength`：0.6–0.9（跟随参考运动的紧密程度）
* `frames`：25（约 12fps 下的 2 秒）或 49（4 秒）
* `resolution`：832×480（默认 480p）

**LoadVideo（参考）**

* 加载你的参考运动片段（MP4、GIF 或图像序列）
* 建议：2–5 秒，时长与目标输出大致相同

***

## 运行你的第一次生成

### 准备你的输入

1. **起始图像**：832×480 像素或接近该尺寸。PNG 或 JPG。这是你的主体。
2. **参考运动视频**：理想时长为 2–5 秒，展示你想要的运动。分辨率不需要匹配——模型提取的是运动向量，而不是像素内容。
3. **文本提示**：描述你的主体以及它正在做什么（例如， `"一个产品瓶在白色表面上平滑旋转，电影级灯光，4K，专业摄影"`)

### 首次运行的推荐设置

```yaml
steps: 25
cfg: 7.0
motion_strength: 0.75
frames: 25
seed: 42（固定以确保可复现）
```

### 生成时间估算

| GPU       | 变体   | 帧数   | 时间           |
| --------- | ---- | ---- | ------------ |
| RTX 3090  | FP8  | 25 帧 | 约 3–5 分钟     |
| RTX 4090  | BF16 | 25 帧 | 约 2–4 分钟     |
| RTX 4090  | FP8  | 25 帧 | 约 1.5–2.5 分钟 |
| A100 80GB | BF16 | 49 帧 | 约 3–5 分钟     |

***

## 实用工作流程

### 角色动画

1. **图像**：角色插画或照片
2. **参考**：演员表演所需动作的片段（走路、挥手、奔跑）
3. **提示词**: `“卡通角色穿过森林，平滑动画，风格一致”`
4. **motion\_strength**：0.85（对参考动作的高保真度）

### 产品演示

1. **图像**：白色背景上的干净产品照
2. **参考**：手部开箱或旋转类似产品
3. **提示词**: `“高级产品展示，360 度旋转，柔和棚拍灯光，商业级品质”`
4. **motion\_strength**：0.70（在灯光/环境方面保留一些创作自由）

### 电影感 B-roll

1. **图像**：风景照片或建筑外观
2. **参考**：无人机镜头或来自素材片段的摄像机平移
3. **提示词**: `“空中电影感 B-roll，黄金时刻，平滑无人机运动，4K 画质”`
4. **motion\_strength**：0.65（让模型添加自然主义运动）

***

## 故障排除

**在启用 BF16 的 RTX 3090 上内存不足**

* 在 WanVideoModelLoader 中切换到 FP8 量化
* 将帧数从 25 减少到 17
* 如果已启用，禁用 VAE 平铺

**运动与参考视频不匹配**

* 将 `motion_strength` 提高到 0.85–0.95
* 确保参考视频已裁剪到与目标时长匹配
* 使用具有清晰、明确动作的参考视频（避免抖动）

**生成的视频闪烁或有伪影**

* 将步数提高到 30
* 将 CFG 降低到 6.0
* 使用光照一致的参考视频

**下载缓慢 / HuggingFace 超时**

* 使用 `HF_ENDPOINT=https://hf-mirror.com` 用于从中国更快下载的环境变量
* 或者通过 `aria2c` 使用多个连接下载

***

## 下一步：Wan 2.7

阿里巴巴的 **Wan 2.7** 是 Wan 视频模型家族的下一代，具有以下特性：

* **首帧 + 末帧生成**：同时指定开头和结尾帧
* **视频到视频编辑**：使用文本指令修改现有视频
* **主体参考**：在不同场景中保持特定对象/角色外观一致

Wan 2.7 目前可通过 Together AI 的 API 使用。 **开源权重预计将在 2026 年第二季度中期发布。** 权重发布后，本仓库将添加完整的自托管指南。

***

## 总结

Wan 2.2 VBVR 为开源视频生成带来了基于参考的运动控制。提供一张起始图像和一段参考运动片段，模型即可生成主体自然跟随该动作的连贯视频。FP8 可在 24 GB 的 RTX 3090 上运行，约 0.30 美元/天；BF16 可在 RTX 4090 上运行，约 0.50 美元/天——两者均可在 Clore.ai 上使用。

**→** [**在 Clore.ai 上租用 GPU**](https://clore.ai/marketplace) 并立即开始生成运动控制视频。


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-zh/shi-pin-sheng-cheng/wan22-vbvr.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
