Génération vidéo CogVideoX

Générez des vidéos de 6 secondes à partir de texte ou d'images avec le transformeur de diffusion CogVideoX de Zhipu AI sur les GPU Clore.ai.

CogVideoX est une famille de transformeurs de diffusion vidéo à poids ouverts de Zhipu AI (Tsinghua). Les modèles génèrent des clips cohérents de 6 secondes en 720×480 et 8 ips à partir soit d'une invite textuelle (T2V), soit d'une image de référence plus une invite (I2V). Deux échelles de paramètres sont disponibles — 2B pour des itérations rapides et 5B pour une fidélité supérieure — toutes deux avec un intégration via CogVideoXPipeline.

Faire tourner CogVideoX sur un GPU loué depuis Clore.aiarrow-up-right vous permet d'éviter les contraintes matérielles locales et de générer de la vidéo à grande échelle pour quelques centimes par clip.

Principales caractéristiques

  • Texte vers Vidéo (T2V) — décrivez une scène et obtenez un clip de 6 secondes en 720×480 à 8 ips (49 images).

  • Image vers Vidéo (I2V) — fournissez une image de référence plus une invite ; le modèle l'anime avec une cohérence temporelle.

  • Deux échelles — CogVideoX-2B (rapide, ~12 Go de VRAM) et CogVideoX-5B (qualité supérieure, ~20 Go de VRAM).

  • Support natif des diffusersCogVideoXPipeline et CogVideoXImageToVideoPipeline classes.

  • VAE causal 3D — compresse 49 images en un espace latent compact pour un débruitage efficace.

  • Poids ouverts — licence Apache-2.0 pour la variante 2B ; licence de recherche pour la 5B.

Exigences

Composant
Minimum
Recommandé

VRAM GPU

16 Go (2B, fp16)

24 Go (5B, bf16)

RAM système

32 Go

64 Go

Disque

30 Go

50 Go

Python

3.10+

3.11

CUDA

12.1+

12.4

Recommandation GPU Clore.ai : Un RTX 4090 (24 Go, ~0,5–2 $/jour) gère confortablement les variantes 2B et 5B. Un RTX 3090 (24 Go, ~0,3–1 $/jour) fonctionne tout aussi bien pour la 5B en bf16 et est le choix économique.

Démarrage rapide

Exemples d'utilisation

Texte vers Vidéo (5B)

Image vers Vidéo (5B)

Génération rapide avec la variante 2B

Conseils pour les utilisateurs de Clore.ai

  1. Activer le tiling du VAE — sans pipe.vae.enable_tiling() le VAE 3D provoquera un OOM sur des cartes 24 Go pendant le décodage.

  2. Utilisez enable_model_cpu_offload() — déplace automatiquement les modules inactifs vers la RAM ; ajoute ~10 % au temps mur mais économise plus de 4 Go de VRAM au pic.

  3. bf16 pour 5B, fp16 pour 2B — le point de contrôle 5B a été entraîné en bf16 ; utiliser fp16 peut provoquer des sorties NaN.

  4. Persister les modèles — montez un volume persistant Clore.ai sur /models et définissez HF_HOME=/models/hf pour que les poids survivent aux redémarrages du conteneur.

  5. Traitement par lot pendant la nuit — mettez en file d'attente de longues listes d'invites avec une simple boucle Python ; la facturation Clore.ai se fait à l'heure, donc saturer le GPU.

  6. SSH + tmux — lancez la génération à l'intérieur de tmux pour qu'une connexion interrompue ne tue pas le processus.

  7. Sélectionnez le bon GPU — filtrez le marketplace Clore.ai pour des cartes ≥24 Go de VRAM ; triez par prix pour trouver le RTX 3090 / 4090 le moins cher disponible.

Dépannage

Problème
Corriger

OutOfMemoryError pendant le décodage VAE

Appelez pipe.vae.enable_tiling() avant l'inférence

NaN / images noires avec la 5B

Passez à torch.bfloat16; fp16 n'est pas pris en charge pour la variante 5B

ImportError : imageio

pip install imageio[ffmpeg] — le plugin ffmpeg est nécessaire pour l'export MP4

Première exécution très lente

Le téléchargement du modèle fait ~20 Go ; les exécutions suivantes utilisent les poids en cache

Incompatibilité de version CUDA

Assurez-vous que la version CUDA de PyTorch correspond au pilote : python -c "import torch; print(torch.version.cuda)"

Mouvement brouillé / scintillement

Augmentez num_inference_steps à 50 ; diminuer guidance_scale à 5.0

Conteneur tué en cours de téléchargement

Définir HF_HOME sur un volume persistant et redémarrez — les téléchargements partiels reprennent automatiquement

Mis à jour

Ce contenu vous a-t-il été utile ?