> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-hi/video-generation/wan22-vbvr.md).

# Wan 2.2 VBVR (मोशन कंट्रोल)

**Wan 2.2 VBVR** (वीडियो-आधारित वीडियो संदर्भ) Alibaba का April 2026 में Wan 2.2 इमेज-टू-वीडियो बेस मॉडल के लिए विस्तार है। यह एक शक्तिशाली नई क्षमता जोड़ता है: आप एक **संदर्भ वीडियो क्लिप** देते हैं ताकि आप सिर्फ़ शुरुआती इमेज नहीं, बल्कि अपने जनरेट किए गए वीडियो में गति के पैटर्न को नियंत्रित कर सकें। परिणाम होता है सुसंगत, नियंत्रित एनीमेशन — वही किरदार, उत्पाद, या दृश्य आपके संदर्भ फुटेज की गति-पथ का अनुसरण करता है।

यह गाइड Clore.ai GPU रेंटल पर ComfyUI के माध्यम से Wan 2.2 VBVR को डिप्लॉय करने को कवर करती है।

***

## VBVR (वीडियो-आधारित वीडियो संदर्भ) क्या है?

पारंपरिक इमेज-टू-वीडियो मॉडल एक स्थिर इमेज लेते हैं और शुरुआत से गति उत्पन्न करते हैं। गति आपके टेक्स्ट प्रॉम्प्ट से निर्देशित होती है, लेकिन यह अप्रत्याशित हो सकती है — खासकर विशिष्ट हाव-भाव, कैमरा मूव्स, या किरदार की क्रियाओं के लिए।

**VBVR समीकरण बदल देता है:** आप प्रदान करते हैं:

1. एक **शुरुआती इमेज** — आपका विषय (किरदार, उत्पाद, दृश्य)
2. एक **संदर्भ गति वीडियो** — एक छोटा क्लिप जो आपकी इच्छित गति को दिखाता है
3. एक **टेक्स्ट प्रॉम्प्ट** — जो सामग्री और शैली का वर्णन करता है

मॉडल संदर्भ वीडियो से गति पैटर्न निकालता है और उसे आपकी शुरुआती इमेज पर लागू करता है, जिससे एक नया वीडियो बनता है जिसमें आपका विषय उस गति को स्वाभाविक रूप से करता है।

### उदाहरण अनुप्रयोग

| इनपुट इमेज           | संदर्भ वीडियो गति           | आउटपुट                  |
| -------------------- | --------------------------- | ----------------------- |
| उत्पाद फ़ोटो         | हाथ द्वारा समान वस्तु उठाना | उत्पाद उठाने का एनीमेशन |
| किरदार की चित्र-रचना | अभिनेता की चलने की गति      | किरदार का चलना          |
| फैशन मॉडल            | रनवे वॉक फुटेज              | गति में कपड़े           |
| इमारत का बाहरी दृश्य | ड्रोन फुटेज से कैमरा पैन    | सिनेमैटिक B-roll रिवील  |

***

## मॉडल अवलोकन

* **पूरा नाम:** Wan 2.2 I2V-A14B with VBVR (वीडियो-आधारित वीडियो संदर्भ)
* **रिलीज़ हुआ:** April 2026 में Alibaba / Wan-AI टीम द्वारा
* **इस पर आधारित:** Wan 2.2 I2V-A14B (इमेज-टू-वीडियो, 14B पैरामीटर्स, अधिकतम 480p रिज़ॉल्यूशन तक)
* **HuggingFace:** `Wan-AI/Wan2.2-I2V-A14B`
* **VBVR वर्कफ़्लो:** ComfyUI Manager कम्युनिटी नोड्स के माध्यम से वितरित
* **लाइसेंस:** Apache 2.0

### वेरिएंट्स

| वेरिएंट  | आवश्यक VRAM | गुणवत्ता | गति   |
| -------- | ----------- | -------- | ----- |
| **FP8**  | 16–24 GB    | उच्च     | तेज़  |
| **BF16** | 24–40 GB    | सर्वोच्च | मध्यम |

ध्वज **FP8 वेरिएंट** RTX 3090 (24 GB) पर चलता है और कम बैच साइज के साथ 16 GB कार्ड्स में भी समा सकता है। **BF16 वेरिएंट** सबसे अच्छी गुणवत्ता देता है और RTX 4090 (24 GB) या A6000 (48 GB) पर आराम से चलता है।

***

## हार्डवेयर आवश्यकताएँ

| GPU        | VRAM  | वेरिएंट        | Clore.ai पर कीमत |
| ---------- | ----- | -------------- | ---------------- |
| RTX 3090   | 24 GB | FP8 ✅          | \~$0.30/दिन      |
| RTX 4090   | 24 GB | FP8 ✅ / BF16 ✅ | \~$0.50/दिन      |
| A6000 48GB | 48 GB | BF16 ✅         | \~$1.20/दिन      |
| A100 80GB  | 80 GB | BF16 ✅         | \~$2.50/दिन      |

अधिकांश उपयोगकर्ताओं के लिए, **\~$0.50/दिन पर RTX 4090** कीमत और गुणवत्ता का सबसे अच्छा संतुलन है, जो BF16 को पूर्ण 480p रिज़ॉल्यूशन पर चलाता है।

***

## Clore.ai पर चरण-दर-चरण सेटअप

### चरण 1: GPU किराये पर लें

विज़िट करें [clore.ai/marketplace](https://clore.ai/marketplace):

* **बजट**: RTX 3090 (\~$0.30/दिन) — केवल FP8
* **अनुशंसित**: RTX 4090 (\~$0.50/दिन) — BF16 गुणवत्ता
* **प्रीमियम**: A6000 (\~$1.20/दिन) — बैच प्रोसेसिंग, उच्च थ्रूपुट

एक **ComfyUI Docker इमेज** या बेस CUDA इमेज का उपयोग करें (हम ComfyUI को मैन्युअली इंस्टॉल करेंगे)।

### चरण 2: ComfyUI इंस्टॉल करें

```bash
# ComfyUI क्लोन करें
git clone https://github.com/comfyanonymous/ComfyUI.git /workspace/ComfyUI
cd /workspace/ComfyUI

# Python डिपेंडेंसीज़ इंस्टॉल करें
pip install -r requirements.txt

# ComfyUI Manager इंस्टॉल करें (आसान नोड इंस्टॉलेशन के लिए)
cd custom_nodes
git clone https://github.com/ltdrdata/ComfyUI-Manager.git
cd ..
```

### चरण 3: ComfyUI Manager के माध्यम से VBVR कस्टम नोड्स इंस्टॉल करें

ComfyUI शुरू करें:

```bash
cd /workspace/ComfyUI
python main.py --listen 0.0.0.0 --port 8188
```

खोलें `http://YOUR_CLORE_IP:8188` अपने ब्राउज़र में। फिर:

1. क्लिक करें **Manager** बटन (टॉप मेनू)
2. खोजें **"Wan 2.2 VBVR"** या **"WanVideo"**
3. इंस्टॉल करें **ComfyUI-WanVideo** नोड पैक
4. इंस्टॉलेशन के बाद ComfyUI को रीस्टार्ट करें

वैकल्पिक रूप से, नोड्स सीधे इंस्टॉल करें:

```bash
cd /workspace/ComfyUI/custom_nodes
git clone https://github.com/kijai/ComfyUI-WanVideoWrapper.git
pip install -r ComfyUI-WanVideoWrapper/requirements.txt
```

### चरण 4: मॉडल चेकपॉइंट्स डाउनलोड करें

```bash
mkdir -p /workspace/ComfyUI/models/wan

# Wan 2.2 I2V बेस मॉडल (~28GB) डाउनलोड करें
huggingface-cli download \
  Wan-AI/Wan2.2-I2V-A14B \
  --local-dir /workspace/ComfyUI/models/wan/Wan2.2-I2V-A14B

# VBVR-विशिष्ट मोशन एन्कोडर वज़न (~2GB) डाउनलोड करें
# नोट: VBVR वज़न ComfyUI-WanVideoWrapper कम्युनिटी रिलीज़ के रूप में वितरित किए जाते हैं।
# मौजूदा डाउनलोड पथ के लिए https://github.com/kijai/ComfyUI-WanVideoWrapper देखें।
huggingface-cli download \
  kijai/WanVideo-motion-encoder \
  --local-dir /workspace/ComfyUI/models/wan/vbvr-motion-encoder
```

> **सुझाव:** उपयोग करें `huggingface-cli download --include "*.safetensors"` गैर-ज़रूरी फ़ाइलों को छोड़ने और डिस्क स्पेस बचाने के लिए।

### चरण 5: VAE और टेक्स्ट एन्कोडर डाउनलोड करें

```bash
# CLIP टेक्स्ट एन्कोडर (बेस Wan 2.2 के साथ साझा)
huggingface-cli download \
  Wan-AI/Wan2.2-I2V-A14B \
  --include "xlabs_clip*" \
  --local-dir /workspace/ComfyUI/models/clip

# T5 XXL टेक्स्ट एन्कोडर
huggingface-cli download \
  Wan-AI/Wan2.2-I2V-A14B \
  --include "t5*" \
  --local-dir /workspace/ComfyUI/models/t5

# VAE
huggingface-cli download \
  Wan-AI/Wan2.2-I2V-A14B \
  --include "Wan2.2_VAE.safetensors" \
  --local-dir /workspace/ComfyUI/models/vae
```

***

## ComfyUI में VBVR वर्कफ़्लो बनाना

### वर्कफ़्लो अवलोकन

VBVR वर्कफ़्लो इन नोड समूहों को जोड़ता है:

```
[Load Image] ──────────────────────────────────┐
                                               ↓
[Load Reference Video] → [VBVR Motion Encoder] → [Wan I2V Sampler] → [VAE Decode] → [Save Video]
                                               ↑
[CLIP Text Encode] ────────────────────────────┘
```

### वर्कफ़्लो लोड करना

1. ComfyUI-WanVideoWrapper रिपॉज़िटरी से पहले से बना VBVR वर्कफ़्लो JSON डाउनलोड करें:

   ```
   custom_nodes/ComfyUI-WanVideoWrapper/workflows/wan22_vbvr.json
   ```
2. ComfyUI में: **Load** → चुनें `wan22_vbvr.json`

### मुख्य नोड्स कॉन्फ़िगर करना

**WanVideoModelLoader**

* `model_path`: इंगित करें `Wan2.2-I2V-A14B`
* `precision`: `fp8_e4m3fn` RTX 3090 के लिए, `bf16` RTX 4090+ के लिए

**VBVRMotionEncoderLoader**

* `encoder_path`: इंगित करें `vbvr-motion-encoder`

**WanVideoSampler**

* `steps`: 25–30 (गुणवत्ता), 15–20 (गति)
* `cfg`: 6.0–7.5 (अधिक = प्रॉम्प्ट के प्रति अधिक अनुरूप)
* `motion_strength`: 0.6–0.9 (संदर्भ गति को कितनी नज़दीकी से फॉलो करना है)
* `frames`: 25 (12fps पर लगभग 2 सेकंड) या 49 (4 सेकंड)
* `resolution`: 832×480 (डिफ़ॉल्ट 480p)

**LoadVideo (Reference)**

* अपनी संदर्भ गति क्लिप लोड करें (MP4, GIF, या इमेज सीक्वेंस)
* अनुशंसित: 2–5 सेकंड, आपके लक्ष्य आउटपुट के लगभग समान अवधि

***

## अपना पहला जनरेशन चलाना

### अपने इनपुट तैयार करें

1. **शुरुआती इमेज**: 832×480px या उसके करीब। PNG या JPG। यही आपका विषय है।
2. **संदर्भ गति वीडियो**: आदर्श रूप से 2–5 सेकंड, इच्छित गति दिखाता है। रिज़ॉल्यूशन का मेल होना ज़रूरी नहीं — मॉडल मोशन वेक्टर निकालता है, पिक्सेल सामग्री नहीं।
3. **टेक्स्ट प्रॉम्प्ट**: अपने विषय और वह क्या कर रहा है, इसका वर्णन करें (जैसे, `"एक उत्पाद बोतल सफ़ेद सतह पर स्मूदली घूमती हुई, सिनेमैटिक लाइटिंग, 4K, प्रोफेशनल फ़ोटोग्राफी"`)

### पहले रन के लिए अनुशंसित सेटिंग्स

```yaml
steps: 25
cfg: 7.0
motion_strength: 0.75
frames: 25
seed: 42 (पुनरुत्पादन के लिए स्थिर)
```

### जनरेशन समय अनुमान

| GPU       | वेरिएंट | फ्रेम्स    | समय            |
| --------- | ------- | ---------- | -------------- |
| RTX 3090  | FP8     | 25 फ्रेम्स | \~3–5 मिनट     |
| RTX 4090  | BF16    | 25 फ्रेम्स | \~2–4 मिनट     |
| RTX 4090  | FP8     | 25 फ्रेम्स | \~1.5–2.5 मिनट |
| A100 80GB | BF16    | 49 फ्रेम्स | \~3–5 मिनट     |

***

## व्यावहारिक वर्कफ़्लोज़

### किरदार एनीमेशन

1. **छवि**: किरदार की चित्र-रचना या फ़ोटो
2. **संदर्भ**: किसी अभिनेता के इच्छित क्रिया करते हुए फुटेज (चलना, हाथ हिलाना, दौड़ना)
3. **प्रॉम्प्ट**: `"जंगल में चलता हुआ कार्टून किरदार, स्मूद एनीमेशन, सुसंगत शैली"`
4. **motion\_strength**: 0.85 (संदर्भ गति के प्रति उच्च निष्ठा)

### उत्पाद डेमो

1. **छवि**: सफ़ेद बैकग्राउंड पर साफ़ उत्पाद शॉट
2. **संदर्भ**: हाथ से अनबॉक्स करना या समान उत्पाद को घुमाना
3. **प्रॉम्प्ट**: `"प्रीमियम उत्पाद रिवील, 360 रोटेशन, नरम स्टूडियो लाइटिंग, कमर्शियल क्वालिटी"`
4. **motion\_strength**: 0.70 (लाइटिंग/पर्यावरण के लिए कुछ रचनात्मक स्वतंत्रता)

### सिनेमैटिक B-roll

1. **छवि**: लैंडस्केप फ़ोटो या इमारत का बाहरी दृश्य
2. **संदर्भ**: ड्रोन फुटेज या स्टॉक क्लिप से कैमरा पैन
3. **प्रॉम्प्ट**: `"एरियल सिनेमैटिक B-roll, गोल्डन आवर, स्मूद ड्रोन मूवमेंट, 4K क्वालिटी"`
4. **motion\_strength**: 0.65 (मॉडल को प्राकृतिक गति जोड़ने दें)

***

## समस्या-निवारण

**BF16 के साथ RTX 3090 पर मेमोरी समाप्त**

* WanVideoModelLoader में FP8 क्वांटाइज़ेशन पर स्विच करें
* फ्रेम्स को 25 से 17 तक कम करें
* यदि सक्षम हो तो VAE टाइलिंग अक्षम करें

**गति संदर्भ वीडियो से मेल नहीं खाती**

* बढ़ाएँ `motion_strength` 0.85–0.95 तक
* सुनिश्चित करें कि संदर्भ वीडियो को आपके लक्ष्य अवधि से मेल खाने के लिए ट्रिम किया गया है
* स्पष्ट, असंदिग्ध गति वाले संदर्भ वीडियो का उपयोग करें (कैमरा शेक से बचें)

**जनरेट किया गया वीडियो झिलमिलाता है या उसमें आर्टिफ़ैक्ट्स हैं**

* steps को 30 तक बढ़ाएँ
* CFG को 6.0 तक घटाएँ
* सुसंगत रोशनी वाला संदर्भ वीडियो उपयोग करें

**धीमा डाउनलोड / HuggingFace टाइमआउट**

* उपयोग करें `HF_ENDPOINT=https://hf-mirror.com` चीन से तेज़ डाउनलोड के लिए environment variable
* या डाउनलोड करें `aria2c` कई कनेक्शनों के साथ

***

## अगला क्या: Wan 2.7

अलीबाबा का **Wan 2.7** Wan वीडियो मॉडल परिवार की अगली पीढ़ी है, जिसमें शामिल है:

* **पहला + अंतिम फ्रेम जनरेशन**: शुरुआती और अंतिम दोनों फ़्रेम निर्दिष्ट करें
* **वीडियो-टू-वीडियो एडिटिंग**: टेक्स्ट निर्देशों से मौजूदा वीडियो को संशोधित करें
* **सब्जेक्ट रेफ़रेंसिंग**: दृश्यों के बीच विशिष्ट वस्तुओं/किरदारों का सुसंगत रूप बनाए रखें

Wan 2.7 वर्तमान में Together AI के API के माध्यम से उपलब्ध है। **ओपन-सोर्स वज़न mid-Q2 2026 में अपेक्षित हैं।** वज़न जारी होने पर इस रिपॉज़िटरी में एक पूर्ण self-hosting गाइड जोड़ी जाएगी।

***

## सारांश

Wan 2.2 VBVR ओपन-सोर्स वीडियो जनरेशन में संदर्भ-चालित मोशन नियंत्रण लाता है। एक शुरुआती इमेज और एक संदर्भ गति क्लिप दें, और मॉडल एक सुसंगत वीडियो जनरेट करता है जिसमें आपका विषय उस गति को स्वाभाविक रूप से फॉलो करता है। FP8 24 GB RTX 3090 पर लगभग $0.30/दिन में चलता है; BF16 RTX 4090 पर लगभग $0.50/दिन में — दोनों Clore.ai पर।

**→** [**Clore.ai पर GPU किराए पर लें**](https://clore.ai/marketplace) और आज ही गति-नियंत्रित वीडियो बनाना शुरू करें।


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-hi/video-generation/wan22-vbvr.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
