Génération vidéo CogVideoX
Générez des vidéos de 6 secondes à partir de texte ou d'images avec le transformeur de diffusion CogVideoX de Zhipu AI sur les GPU Clore.ai.
CogVideoX est une famille de transformeurs de diffusion vidéo à poids ouverts de Zhipu AI (Tsinghua). Les modèles génèrent des clips cohérents de 6 secondes en 720×480 et 8 ips à partir soit d'une invite textuelle (T2V), soit d'une image de référence plus une invite (I2V). Deux échelles de paramètres sont disponibles — 2B pour des itérations rapides et 5B pour une fidélité supérieure — toutes deux avec un intégration via CogVideoXPipeline.
Faire tourner CogVideoX sur un GPU loué depuis Clore.ai vous permet d'éviter les contraintes matérielles locales et de générer de la vidéo à grande échelle pour quelques centimes par clip.
Principales caractéristiques
Texte vers Vidéo (T2V) — décrivez une scène et obtenez un clip de 6 secondes en 720×480 à 8 ips (49 images).
Image vers Vidéo (I2V) — fournissez une image de référence plus une invite ; le modèle l'anime avec une cohérence temporelle.
Deux échelles — CogVideoX-2B (rapide, ~12 Go de VRAM) et CogVideoX-5B (qualité supérieure, ~20 Go de VRAM).
Support natif des diffusers —
CogVideoXPipelineetCogVideoXImageToVideoPipelineclasses.VAE causal 3D — compresse 49 images en un espace latent compact pour un débruitage efficace.
Poids ouverts — licence Apache-2.0 pour la variante 2B ; licence de recherche pour la 5B.
Exigences
VRAM GPU
16 Go (2B, fp16)
24 Go (5B, bf16)
RAM système
32 Go
64 Go
Disque
30 Go
50 Go
Python
3.10+
3.11
CUDA
12.1+
12.4
Recommandation GPU Clore.ai : Un RTX 4090 (24 Go, ~0,5–2 $/jour) gère confortablement les variantes 2B et 5B. Un RTX 3090 (24 Go, ~0,3–1 $/jour) fonctionne tout aussi bien pour la 5B en bf16 et est le choix économique.
Démarrage rapide
Exemples d'utilisation
Texte vers Vidéo (5B)
Image vers Vidéo (5B)
Génération rapide avec la variante 2B
Conseils pour les utilisateurs de Clore.ai
Activer le tiling du VAE — sans
pipe.vae.enable_tiling()le VAE 3D provoquera un OOM sur des cartes 24 Go pendant le décodage.Utilisez
enable_model_cpu_offload()— déplace automatiquement les modules inactifs vers la RAM ; ajoute ~10 % au temps mur mais économise plus de 4 Go de VRAM au pic.bf16 pour 5B, fp16 pour 2B — le point de contrôle 5B a été entraîné en bf16 ; utiliser fp16 peut provoquer des sorties NaN.
Persister les modèles — montez un volume persistant Clore.ai sur
/modelset définissezHF_HOME=/models/hfpour que les poids survivent aux redémarrages du conteneur.Traitement par lot pendant la nuit — mettez en file d'attente de longues listes d'invites avec une simple boucle Python ; la facturation Clore.ai se fait à l'heure, donc saturer le GPU.
SSH + tmux — lancez la génération à l'intérieur de
tmuxpour qu'une connexion interrompue ne tue pas le processus.Sélectionnez le bon GPU — filtrez le marketplace Clore.ai pour des cartes ≥24 Go de VRAM ; triez par prix pour trouver le RTX 3090 / 4090 le moins cher disponible.
Dépannage
OutOfMemoryError pendant le décodage VAE
Appelez pipe.vae.enable_tiling() avant l'inférence
NaN / images noires avec la 5B
Passez à torch.bfloat16; fp16 n'est pas pris en charge pour la variante 5B
ImportError : imageio
pip install imageio[ffmpeg] — le plugin ffmpeg est nécessaire pour l'export MP4
Première exécution très lente
Le téléchargement du modèle fait ~20 Go ; les exécutions suivantes utilisent les poids en cache
Incompatibilité de version CUDA
Assurez-vous que la version CUDA de PyTorch correspond au pilote : python -c "import torch; print(torch.version.cuda)"
Mouvement brouillé / scintillement
Augmentez num_inference_steps à 50 ; diminuer guidance_scale à 5.0
Conteneur tué en cours de téléchargement
Définir HF_HOME sur un volume persistant et redémarrez — les téléchargements partiels reprennent automatiquement
Mis à jour
Ce contenu vous a-t-il été utile ?