CogVideoX — генерация видео
Генерируйте 6-секундные видео из текста или изображений с помощью диффузионного трансформера CogVideoX от Zhipu AI на GPU Clore.ai.
CogVideoX — это семейство видеодиффузионных трансформеров с открытыми весами от Zhipu AI (Цинхуа). Модели генерируют связные 6-секундные клипы с разрешением 720×480 и частотой 8 fps из текстового подсказа (T2V) или из эталонного изображения и подсказа (I2V). Доступны два масштаба параметров — 2B для быстрой итерации и 5B для более высокого качества — оба с нативной поддержкой diffusers интеграции через CogVideoXPipeline.
Запуск CogVideoX на арендованной GPU от Clore.ai позволяет вам обойти локальные аппаратные ограничения и генерировать видео в масштабе за копейки за клип.
Ключевые особенности
Текст в видео (T2V) — опишите сцену и получите 6‑секундный клип 720×480 при 8 fps (49 кадров).
Изображение в видео (I2V) — предоставьте эталонное изображение и подсказ — модель анимирует его с временной согласованностью.
Два масштаба — CogVideoX-2B (быстрый, ~12 ГБ VRAM) и CogVideoX-5B (более высокое качество, ~20 ГБ VRAM).
Нативная поддержка diffusers — первоклассная
CogVideoXPipelineиCogVideoXImageToVideoPipelineклассы.3D каузальный VAE — сжимает 49 кадров в компактное латентное пространство для эффективного денойзинга.
Открытые веса — лицензия Apache-2.0 для варианта 2B; исследовательская лицензия для 5B.
Требования
VRAM GPU
16 ГБ (2B, fp16)
24 ГБ (5B, bf16)
ОЗУ системы
32 ГБ
64 ГБ
Диск
30 GB
50 ГБ
Python
3.10+
3.11
CUDA
12.1+
12.4
Рекомендация Clore.ai по GPU: Один RTX 4090 (24 ГБ, ~$0.5–2/день) с лёгкостью справляется как с вариантом 2B, так и с 5B. Один RTX 3090 (24 ГБ, ~$0.3–1/день) одинаково хорошо подходит для 5B в bf16 и является бюджетным вариантом.
Быстрый старт
Примеры использования
Текст в видео (5B)
Изображение в видео (5B)
Быстрая генерация с вариантом 2B
Советы для пользователей Clore.ai
Включите плитинг VAE — без
pipe.vae.enable_tiling()трёхмерный VAE приведёт к OOM на 24 ГБ картах при декодировании.Используйте
enable_model_cpu_offload()— автоматически переносит неактивные модули в ОЗУ; добавляет ~10 % к общему времени, но экономит 4+ ГБ пикового VRAM.bf16 для 5B, fp16 для 2B — контрольная точка 5B была обучена в bf16; использование fp16 может привести к выходам NaN.
Сохранение моделей — примонтируйте постоянный том Clore.ai к
/modelsи установитеHF_HOME=/models/hfчтобы веса сохранялись при перезапусках контейнера.Пакетная обработка на ночь — ставьте в очередь длинные списки подсказов простым Python‑циклом; тарификация Clore.ai почасовая, поэтому полностью загружайте GPU.
SSH + tmux — запускайте генерацию внутри
tmuxчтобы разорванное соединение не убило процесс.Выберите подходящую GPU — фильтруйте маркетплейс Clore.ai по картам с ≥24 ГБ VRAM; сортируйте по цене, чтобы найти самое дешёвое доступное RTX 3090 / 4090.
Устранение неполадок
OutOfMemoryError во время декодирования VAE
Вызовите pipe.vae.enable_tiling() перед инференсом
NaN / чёрные кадры с 5B
Переключитесь на torch.bfloat16; fp16 не поддерживается для варианта 5B
ImportError: imageio
pip install imageio[ffmpeg] — нужен плагин ffmpeg для экспорта в MP4
Очень медрый первый запуск
Скачивание модели ≈20 ГБ; последующие запуски используют кэшированные веса
Несоответствие версии CUDA
Убедитесь, что версия PyTorch с поддержкой CUDA соответствует драйверу: python -c "import torch; print(torch.version.cuda)"
Искажённое движение / мерцание
Увеличьте num_inference_steps до 50; меньшие guidance_scale до 5.0
Контейнер убит во время загрузки
Установите HF_HOME на постоянный том и перезапустите — частичные загрузки возобновляются автоматически
Последнее обновление
Это было полезно?