CogVideoX Videogenerierung
Generieren Sie 6-Sekunden-Videos aus Text oder Bildern mit Zhipu AIs CogVideoX Diffusions-Transformer auf Clore.ai GPUs.
CogVideoX ist eine Familie von Open-Weight-Video-Diffusions-Transformern von Zhipu AI (Tsinghua). Die Modelle erzeugen kohärente 6-Sekunden-Clips in 720×480-Auflösung und 8 fps entweder aus einer Textvorgabe (T2V) oder aus einem Referenzbild plus Vorgabe (I2V). Zwei Modellgrößen sind verfügbar — 2B für schnelle Iteration und 5B für höhere Qualität — beide mit nativer diffusers Integration durch CogVideoXPipeline.
CogVideoX auf einer gemieteten GPU von Clore.ai ermöglicht es Ihnen, lokale Hardwarebeschränkungen zu umgehen und Videos in großem Maßstab für Cent-Beträge pro Clip zu generieren.
Hauptmerkmale
Text-zu-Video (T2V) — beschreiben Sie eine Szene und erhalten Sie einen 6-Sekunden-720×480-Clip bei 8 fps (49 Frames).
Bild-zu-Video (I2V) — liefern Sie ein Referenzbild plus Prompt; das Modell animiert es mit zeitlicher Konsistenz.
Zwei Größen — CogVideoX-2B (schnell, ~12 GB VRAM) und CogVideoX-5B (höhere Qualität, ~20 GB VRAM).
Native diffusers-Unterstützung — erstklassige
CogVideoXPipelineundCogVideoXImageToVideoPipelineKlassen.3D-kausaler VAE — komprimiert 49 Frames in einen kompakten latenten Raum für effizientes Denoising.
Offene Gewichte — Apache-2.0-Lizenz für die 2B-Variante; Forschungslizenz für 5B.
Anforderungen
GPU-VRAM
16 GB (2B, fp16)
24 GB (5B, bf16)
System-RAM
32 GB
64 GB
Festplatte
30 GB
50 GB
Python
3.10+
3.11
CUDA
12.1+
12.4
Clore.ai GPU-Empfehlung: Ein RTX 4090 (24 GB, ~$0.5–2/Tag) bewältigt sowohl die 2B- als auch die 5B-Varianten problemlos. Ein RTX 3090 (24 GB, ~$0.3–1/Tag) funktioniert ebenso gut für 5B in bf16 und ist die Budget-Wahl.
Schnellstart
Beispielanwendungen
Text-zu-Video (5B)
Bild-zu-Video (5B)
Schnelle Generierung mit der 2B-Variante
Tipps für Clore.ai-Nutzer
VAE-Tiling aktivieren — ohne
pipe.vae.enable_tiling()wird der 3D-VAE beim Decodieren auf 24-GB-Karten OOM verursachen.Verwenden Sie
enable_model_cpu_offload()— verschiebt inaktive Module automatisch in den RAM; fügt ~10 % Laufzeit hinzu, spart aber 4+ GB Spitzen-VRAM.bf16 für 5B, fp16 für 2B — der 5B-Checkpoint wurde in bf16 trainiert; die Verwendung von fp16 kann NaN-Ausgaben verursachen.
Modelle persistent speichern — mounten Sie ein Clore.ai Persistent Volume nach
/modelsund setzen SieHF_HOME=/models/hfdamit Gewichte Container-Neustarts überstehen.Über Nacht im Batch — legen Sie lange Prompt-Listen mit einer einfachen Python-Schleife in eine Warteschlange; Clore.ai berechnet stundenweise, also sollten Sie die GPU auslasten.
SSH + tmux — führen Sie die Generierung innerhalb von
tmuxaus, damit eine abgebrochene Verbindung den Prozess nicht tötet.Wählen Sie die richtige GPU — filtern Sie den Clore.ai-Marktplatz nach Karten mit ≥24 GB VRAM; sortieren Sie nach Preis, um die günstigste verfügbare RTX 3090 / 4090 zu finden.
Fehlerbehebung
OutOfMemoryError während des VAE-Decodierens
Rufen Sie pipe.vae.enable_tiling() vor der Inferenz auf
NaN / schwarze Frames mit 5B
Wechseln Sie zu torch.bfloat16; fp16 wird für die 5B-Variante nicht unterstützt
ImportError: imageio
pip install imageio[ffmpeg] — das ffmpeg-Plugin wird für den MP4-Export benötigt
Sehr langsamer erster Lauf
Der Modelldownload ist ~20 GB; nachfolgende Läufe verwenden die zwischengespeicherten Gewichte
CUDA-Versionskonflikt
Stellen Sie sicher, dass die PyTorch-CUDA-Version mit dem Treiber übereinstimmt: python -c "import torch; print(torch.version.cuda)"
Verzerrte Bewegung / Flimmern
Erhöhen Sie num_inference_steps auf 50; niedrigere guidance_scale auf 5.0
Container wurde während des Downloads beendet
Setze HF_HOME auf ein persistenten Volume setzen und neu starten — partielle Downloads werden automatisch fortgesetzt
Zuletzt aktualisiert
War das hilfreich?