> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-fr/generation-video/wan22-vbvr.md).

# Wan 2.2 VBVR (contrôle du mouvement)

**Wan 2.2 VBVR** (Video-Based Video Reference) est l’extension d’avril 2026 d’Alibaba du modèle de base image-vers-vidéo Wan 2.2. Elle ajoute une nouvelle capacité puissante : vous fournissez un **clip vidéo de référence** pour contrôler les schémas de mouvement dans votre vidéo générée, et pas seulement une image de départ. Le résultat est une animation cohérente et contrôlable — le même personnage, produit ou scène suit le trajet de mouvement de vos images de référence.

Ce guide explique comment déployer Wan 2.2 VBVR via ComfyUI sur une location de GPU Clore.ai.

***

## Qu’est-ce que VBVR (Video-Based Video Reference) ?

Les modèles traditionnels d’image vers vidéo prennent une image statique et génèrent le mouvement à partir de zéro. Le mouvement est guidé par votre invite textuelle, mais il peut être imprévisible — surtout pour des gestes spécifiques, des mouvements de caméra ou des actions de personnage.

**VBVR change la donne :** vous fournissez :

1. Une **image de départ** — votre sujet (personnage, produit, scène)
2. Une **vidéo de mouvement de référence** — un court clip démontrant le mouvement souhaité
3. Une **invite textuelle** — décrivant le contenu et le style

Le modèle extrait le schéma de mouvement de la vidéo de référence et l’applique à votre image de départ, générant une nouvelle vidéo dans laquelle votre sujet effectue naturellement ce mouvement.

### Exemples d’application

| Image d’entrée             | Mouvement de la vidéo de référence               | Sortie                                      |
| -------------------------- | ------------------------------------------------ | ------------------------------------------- |
| Photo de produit           | Main prenant un objet similaire                  | Animation de prise en main du produit       |
| Illustration de personnage | Cycle de marche d’un acteur                      | Personnage en marche                        |
| Mannequin de mode          | Séquence de défilé                               | Vêtement en mouvement                       |
| Façade de bâtiment         | Panoramique de caméra depuis des images de drone | Révélation cinématographique de type B-roll |

***

## Aperçu du modèle

* **Nom complet :** Wan 2.2 I2V-A14B avec VBVR (Video-Based Video Reference)
* **Publié :** Avril 2026 par Alibaba / l’équipe Wan-AI
* **Basé sur :** Wan 2.2 I2V-A14B (Image vers vidéo, 14 milliards de paramètres, jusqu’à une résolution 480p)
* **HuggingFace :** `Wan-AI/Wan2.2-I2V-A14B`
* **Flux VBVR :** distribué via les nœuds communautaires de ComfyUI Manager
* **Licence :** Apache 2.0

### Variantes

| Variante | VRAM requise | Qualité        | Vitesse |
| -------- | ------------ | -------------- | ------- |
| **FP8**  | 16–24 Go     | Élevée         | Rapide  |
| **BF16** | 24–40 Go     | La plus élevée | Modérée |

Le **La variante FP8** fonctionne sur une RTX 3090 (24 Go) et peut se caser sur des cartes 16 Go avec une taille de lot réduite. La **variante BF16** offre la meilleure qualité et fonctionne confortablement sur une RTX 4090 (24 Go) ou une A6000 (48 Go).

***

## Exigences matérielles

| GPU         | VRAM  | Variante       | Prix sur Clore.ai |
| ----------- | ----- | -------------- | ----------------- |
| RTX 3090    | 24 Go | FP8 ✅          | \~0,30 $/jour     |
| RTX 4090    | 24 Go | FP8 ✅ / BF16 ✅ | \~0,50 $/jour     |
| A6000 48 Go | 48 Go | BF16 ✅         | \~1,20 $/jour     |
| A100 80 Go  | 80 Go | BF16 ✅         | \~2,50 $/jour     |

Pour la plupart des utilisateurs, une **RTX 4090 à \~0,50 $/jour** constitue le meilleur équilibre entre prix et qualité, avec BF16 à la résolution 480p complète.

***

## Configuration pas à pas sur Clore.ai

### Étape 1 : louer un GPU

Visitez [clore.ai/marketplace](https://clore.ai/marketplace):

* **Budget**: RTX 3090 (\~0,30 $/jour) — FP8 uniquement
* **Recommandé**: RTX 4090 (\~0,50 $/jour) — qualité BF16
* **Premium**: A6000 (\~1,20 $/jour) — traitement par lots, haut débit

Utilisez une **image Docker ComfyUI** ou l’image CUDA de base (nous installerons ComfyUI manuellement).

### Étape 2 : installer ComfyUI

```bash
# Cloner ComfyUI
git clone https://github.com/comfyanonymous/ComfyUI.git /workspace/ComfyUI
cd /workspace/ComfyUI

# Installer les dépendances Python
pip install -r requirements.txt

# Installer ComfyUI Manager (pour une installation facile des nœuds)
cd custom_nodes
git clone https://github.com/ltdrdata/ComfyUI-Manager.git
cd ..
```

### Étape 3 : installer les nœuds personnalisés VBVR via ComfyUI Manager

Démarrez ComfyUI :

```bash
cd /workspace/ComfyUI
python main.py --listen 0.0.0.0 --port 8188
```

Ouvrez `http://VOTRE_IP_CLORE:8188` dans votre navigateur. Puis :

1. Cliquez sur le bouton **Manager** (menu du haut)
2. Recherchez **« Wan 2.2 VBVR »** ou **« WanVideo »**
3. Installez le **ComfyUI-WanVideo** pack de nœuds
4. Redémarrez ComfyUI après l’installation

Sinon, installez les nœuds directement :

```bash
cd /workspace/ComfyUI/custom_nodes
git clone https://github.com/kijai/ComfyUI-WanVideoWrapper.git
pip install -r ComfyUI-WanVideoWrapper/requirements.txt
```

### Étape 4 : télécharger les points de contrôle du modèle

```bash
mkdir -p /workspace/ComfyUI/models/wan

# Télécharger le modèle de base Wan 2.2 I2V (~28 Go)
huggingface-cli download \
  Wan-AI/Wan2.2-I2V-A14B \
  --local-dir /workspace/ComfyUI/models/wan/Wan2.2-I2V-A14B

# Télécharger les poids de l’encodeur de mouvement spécifiques à VBVR (~2 Go)
# Remarque : les poids VBVR sont distribués comme une version communautaire de ComfyUI-WanVideoWrapper.
# Consultez https://github.com/kijai/ComfyUI-WanVideoWrapper pour connaître le chemin de téléchargement actuel.
huggingface-cli download \
  kijai/WanVideo-motion-encoder \
  --local-dir /workspace/ComfyUI/models/wan/vbvr-motion-encoder
```

> **Astuce :** Utilisez `huggingface-cli download --include "*.safetensors"` pour ignorer les fichiers non essentiels et économiser de l’espace disque.

### Étape 5 : télécharger le VAE et l’encodeur de texte

```bash
# Encodeur de texte CLIP (partagé avec Wan 2.2 de base)
huggingface-cli download \
  Wan-AI/Wan2.2-I2V-A14B \
  --include "xlabs_clip*" \
  --local-dir /workspace/ComfyUI/models/clip

# Encodeur de texte T5 XXL
huggingface-cli download \
  Wan-AI/Wan2.2-I2V-A14B \
  --include "t5*" \
  --local-dir /workspace/ComfyUI/models/t5

# VAE
huggingface-cli download \
  Wan-AI/Wan2.2-I2V-A14B \
  --include "Wan2.2_VAE.safetensors" \
  --local-dir /workspace/ComfyUI/models/vae
```

***

## Construction du flux de travail VBVR dans ComfyUI

### Aperçu du flux de travail

Le flux de travail VBVR connecte ces groupes de nœuds :

```
[Load Image] ──────────────────────────────────┐
                                               ↓
[Load Reference Video] → [VBVR Motion Encoder] → [Wan I2V Sampler] → [VAE Decode] → [Save Video]
                                               ↑
[CLIP Text Encode] ────────────────────────────┘
```

### Chargement du flux de travail

1. Téléchargez le JSON du flux de travail VBVR préconstruit depuis le dépôt ComfyUI-WanVideoWrapper :

   ```
   custom_nodes/ComfyUI-WanVideoWrapper/workflows/wan22_vbvr.json
   ```
2. Dans ComfyUI : **Chargez** → sélectionnez `wan22_vbvr.json`

### Configuration des nœuds clés

**WanVideoModelLoader**

* `model_path`: pointez vers `Wan2.2-I2V-A14B`
* `precision`: `fp8_e4m3fn` pour RTX 3090, `bf16` pour RTX 4090+

**VBVRMotionEncoderLoader**

* `encoder_path`: pointez vers `vbvr-motion-encoder`

**WanVideoSampler**

* `steps`: 25–30 (qualité), 15–20 (vitesse)
* `cfg`: 6,0–7,5 (plus élevé = meilleure adhérence à l’invite)
* `motion_strength`: 0,6–0,9 (à quel point suivre fidèlement le mouvement de référence)
* `frames`: 25 (environ 2 secondes à 12 ips) ou 49 (4 secondes)
* `resolution`: 832×480 (480p par défaut)

**LoadVideo (Reference)**

* Chargez votre clip de mouvement de référence (MP4, GIF ou séquence d’images)
* Recommandé : 2–5 secondes, durée approximativement identique à votre sortie cible

***

## Lancer votre première génération

### Préparez vos entrées

1. **Image de départ**: 832×480 px ou proche. PNG ou JPG. C’est votre sujet.
2. **Vidéo de mouvement de référence**: idéalement 2–5 secondes, montrant le mouvement souhaité. La résolution n’a pas besoin de correspondre — le modèle extrait des vecteurs de mouvement, pas le contenu des pixels.
3. **Invite textuelle**: décrivez votre sujet et ce qu’il fait (par exemple, `« une bouteille de produit tournant doucement sur une surface blanche, éclairage cinématographique, 4K, photographie professionnelle »`)

### Paramètres recommandés pour le premier essai

```yaml
steps : 25
cfg : 7,0
motion_strength : 0,75
frames : 25
seed : 42 (fixe pour la reproductibilité)
```

### Estimations du temps de génération

| GPU        | Variante | Images    | Temps         |
| ---------- | -------- | --------- | ------------- |
| RTX 3090   | FP8      | 25 images | \~3–5 min     |
| RTX 4090   | BF16     | 25 images | \~2–4 min     |
| RTX 4090   | FP8      | 25 images | \~1,5–2,5 min |
| A100 80 Go | BF16     | 49 images | \~3–5 min     |

***

## Flux de travail pratiques

### Animation de personnage

1. **Image**: illustration ou photo du personnage
2. **Référence**: séquence d’un acteur réalisant l’action souhaitée (marcher, saluer, courir)
3. **Invite**: `« personnage de dessin animé marchant dans une forêt, animation fluide, style cohérent »`
4. **motion\_strength**: 0,85 (fidélité élevée au mouvement de référence)

### Démo produit

1. **Image**: photo de produit propre sur fond blanc
2. **Référence**: mains déballant ou faisant tourner un produit similaire
3. **Invite**: `« révélation de produit haut de gamme, rotation à 360°, éclairage doux de studio, qualité commerciale »`
4. **motion\_strength**: 0,70 (une certaine liberté créative pour l’éclairage/l’environnement)

### B-roll cinématographique

1. **Image**: photo de paysage ou façade de bâtiment
2. **Référence**: images de drone ou panoramique de caméra depuis un clip de banque d’images
3. **Invite**: `« B-roll cinématographique aérien, heure dorée, mouvement de drone fluide, qualité 4K »`
4. **motion\_strength**: 0,65 (laisser le modèle ajouter un mouvement naturaliste)

***

## Dépannage

**Mémoire insuffisante sur RTX 3090 avec BF16**

* Passez à la quantification FP8 dans WanVideoModelLoader
* Réduisez le nombre d’images de 25 à 17
* Désactivez le découpage en tuiles du VAE s’il est activé

**Le mouvement ne correspond pas à la vidéo de référence**

* Augmentez `motion_strength` à 0,85–0,95
* Assurez-vous que la vidéo de référence est rognée pour correspondre à la durée cible
* Utilisez des vidéos de référence avec un mouvement clair et sans ambiguïté (évitez les secousses de caméra)

**La vidéo générée scintille ou présente des artefacts**

* Augmentez les étapes à 30
* Réduisez le CFG à 6,0
* Utilisez une vidéo de référence avec un éclairage constant

**Téléchargement lent / délai d’attente HuggingFace**

* Utilisez `HF_ENDPOINT=https://hf-mirror.com` variable d’environnement pour des téléchargements plus rapides depuis la Chine
* Ou téléchargez via `aria2c` avec plusieurs connexions

***

## Et ensuite : Wan 2.7

d'Alibaba **Wan 2.7** est la prochaine génération de la famille de modèles vidéo Wan, avec :

* **Génération de la première et de la dernière image**: spécifiez à la fois l’image d’ouverture et l’image de clôture
* **Montage vidéo vers vidéo**: modifiez une vidéo existante avec des instructions textuelles
* **Référencement de sujet**: conservez une apparence cohérente d’objets/personnages spécifiques à travers les scènes

Wan 2.7 est actuellement disponible via l’API de Together AI. **Les poids open source sont attendus à la mi-T2 2026.** Un guide complet d’auto-hébergement sera ajouté à ce dépôt lorsque les poids seront publiés.

***

## Résumé

Wan 2.2 VBVR apporte un contrôle du mouvement guidé par référence à la génération vidéo open source. Fournissez une image de départ et un clip de mouvement de référence, et le modèle génère une vidéo cohérente dans laquelle votre sujet suit naturellement ce mouvement. FP8 fonctionne sur une RTX 3090 de 24 Go pour \~0,30 $/jour ; BF16 sur une RTX 4090 pour \~0,50 $/jour — tous deux sur Clore.ai.

**→** [**Louez un GPU sur Clore.ai**](https://clore.ai/marketplace) et commencez dès aujourd’hui à générer des vidéos avec contrôle du mouvement.


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-fr/generation-video/wan22-vbvr.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
