Сравнение генерации видео

Сравнение ведущих открытых моделей генерации видео для развертывания на GPU-серверах Clore.ai.

circle-info

Генерация видео с помощью ИИ взлетела в 2024–2025 годах. Это руководство сравнивает топовые открытые модели — Hunyuan Video, Wan2.1, CogVideoX, Mochi 1 и LTX-Video — по качеству, скорости, требованиям к VRAM и областям применения.


Краткая матрица принятия решений

Hunyuan Video
Wan2.1
CogVideoX
Mochi 1
LTX-Video

Разработчик

Tencent

Alibaba

Zhipu AI

Genmo

LightRicks

Качество

⭐⭐⭐⭐⭐

⭐⭐⭐⭐⭐

⭐⭐⭐⭐

⭐⭐⭐⭐

⭐⭐⭐

Скорость

Медленно

Средне

Средне

Средне

Быстро

Мин. VRAM

24GB

16GB

16GB

24GB

8 ГБ

Максимальное разрешение

1280×720

1280×720

1440×960

848×480

1216×704

Максимальная длина

5.4с

2 мин

Лицензия

CLA

Apache 2.0

Apache 2.0

Apache 2.0

Apache 2.0

Звезды на GitHub

10K+

7K+

6K+

4K+

5K+


Обзор

Hunyuan Video

Hunyuan Video от Tencent широко считается лучшей открытой моделью генерации видео на начало 2025 года. Она использует архитектуру на базе трансформеров с выдающимся качеством движения.

Ключевые характеристики: 13B параметров, 5с при 720p, требует 24GB+ VRAM

Wan2.1

Wan (Wenying) 2.1 от Alibaba является сильным конкурентом Hunyuan, предлагая схожее качество при более низких минимальных требованиях к VRAM. Доступны варианты с 1.3B и 14B параметрами.

Ключевые характеристики: 1.3B (lite) или 14B, 5с при 720p, 16GB+ VRAM для 1.3B

CogVideoX

CogVideoX от Zhipu AI ориентирован на точное соответствие тексту и связную генерацию длинных видео. Особенно хорош для кинематографичного контента и генерации, ориентированной на сюжет.

Ключевые характеристики: 5B/10B параметров, 6с при 1440×960, 16GB+ VRAM

Mochi 1

Mochi 1 от Genmo известен плавностью движения и реалистичной физикой. Использует новую архитектуру AsymmDiT. Полностью открыт (веса + код обучения).

Ключевые характеристики: 10B параметров, 5.4с при 848×480, 24GB VRAM

LTX-Video

LTX-Video от LightRick делает приоритет на скорость инференса. Может генерировать видео в реальном или почти реальном времени на современных GPU — идеально для интерактивных приложений.

Ключевые характеристики: 2B параметров, до 2 минут видео, 8GB VRAM


Сравнение качества

Бенчмарк EvalCrafter (2025)

circle-info

Качество субъективно. Эти оценки отражают консенсус сообщества по бенчмаркам VBench и EvalCrafter.

Модель
Оценка VBench
Качество движения
Соответствие тексту
Эстетика

Hunyuan Video

83.2

Отлично

Отлично

Отлично

Wan2.1 (14B)

82.8

Отлично

Отлично

Отлично

CogVideoX-5B

79.6

Хорошо

Очень хорошо

Хорошо

Mochi 1

77.4

Очень хорошо

Хорошо

Хорошо

LTX-Video

71.2

Хорошо

Хорошо

Приемлемо

Качественные сильные стороны

Модель
Лучше всего подходит для
Слабые стороны

Hunyuan Video

Общее качество, кинематография

Очень медленная, требует много VRAM

Wan2.1

Баланс качества/эффективности, I2V

Иногда переизбыточная насыщенность

CogVideoX

Длинные формы с сюжетом, точность по тексту

Менее динамичное движение

Mochi 1

Плавное движение, физика

Нижний предел разрешения

LTX-Video

Скорость, длинные видео

Разрыв в качестве по сравнению с другими


Бенчмарки скорости

Время генерации (A100 80GB, один GPU)

Модель
480p 5с
720p 5с
1080p 5с

Hunyuan Video

45 мин

~3 часа

❌ OOM

Wan2.1 (14B)

15 мин

45 мин

❌ OOM

Wan2.1 (1.3B)

3 мин

8 мин

❌ OOM

CogVideoX-5B

10 мин

25 мин

❌ OOM

Mochi 1

8 мин

❌ OOM

❌ OOM

LTX-Video

45 сек

3 мин

8 мин

circle-exclamation

С оптимизацией (TeaCache / FORA / Step Distillation)

Оптимизированный инференс может существенно сократить время генерации:

Модель
С кешем
Ускорение

Hunyuan Video

~15 мин (720p)

Wan2.1

~12 мин (720p)

~4×

CogVideoX

~8 мин (720p)

~3×

LTX-Video

~45с (720p)


Требования к VRAM

Минимальный VRAM по модели и разрешению

Модель
480p
720p
1080p

Hunyuan Video

24GB

40GB+

Wan2.1 (14B)

24GB

40GB+

Wan2.1 (1.3B)

8 ГБ

16GB

24GB

CogVideoX-5B

16GB

24GB

CogVideoX-2B

8 ГБ

16GB

Mochi 1

24GB

LTX-Video

8 ГБ

12GB

24GB

Приёмы оптимизации памяти

Квантование

Выгрузка на CPU


Hunyuan Video: подробный обзор

Архитектура

  • 13B DiT (Diffusion Transformer) параметры

  • Полное внимание по всем пространственным и временным токенам

  • Обучена на более чем 1 млрд видеоклипов

Развертывание на Clore.ai

Через ComfyUI

Лучше всего для: Генерация кинематографичного видео высочайшего качества, без ограничений по VRAM


Wan2.1: подробный обзор

Архитектура

  • Два варианта: Wan2.1-T2V-1.3B и Wan2.1-T2V-14B

  • Модель Image-to-Video (I2V) также доступна

  • Хорошо работает с многоязычными (китайский + английский) промптами

Развертывание на Clore.ai

Image-to-Video с Wan2.1

Лучше всего для: Баланс качества и эффективности, I2V, многоязычность


CogVideoX: подробный обзор

Архитектура

  • Экспертный трансформер с 3D полным вниманием

  • Варианты на 5B и 10B параметров

  • Кодировщик изображений CogView3 для визуального качества

Развертывание на Clore.ai

Лучше всего для: Точное текст-видео, нарративный контент, генерация длинных форм


Mochi 1: подробный обзор

Архитектура

  • AsymmDiT — асимметричный diffusion transformer

  • Фокус на временной согласованности и плавном движении

  • Полностью открытый, включая код обучения

Развертывание на Clore.ai

Лучше всего для: Плавное движение, реалистичная физика, исследовательские сценарии


LTX-Video: подробный обзор

Архитектура

  • 2B параметра DiT — меньше, быстрее

  • Нативная поддержка длинного видео (до 2 минут)

  • Разработан для генерации в реальном или почти реальном времени

Развертывание на Clore.ai

Лучше всего для: Быстрая генерация, интерактивные приложения, длинные видео, ограниченный VRAM (8GB)


Сравнение функций

Обзор возможностей

Функция
Hunyuan
Wan2.1
CogVideoX
Mochi
LTX

Текст-видео

Модель Image-to-Video

Видео-видео

ControlNet

Частично

Поддержка LoRA

Узлы ComfyUI

Длинные видео (>10с)

Частично

Китайские промпты


Рекомендации Clore.ai по GPU

Для каждой модели

Модель
Минимальный GPU
Рекомендуется
Идеально

Hunyuan Video

RTX 3090 (24GB)

A6000 (48GB)

A100 (80GB)

Wan2.1 14B

RTX 3090 (24GB)

A6000 (48GB)

A100 (80GB)

Wan2.1 1.3B

RTX 3080 (10GB)

RTX 3090

RTX 4090

CogVideoX-5B

RTX 3090 (24GB)

A6000 (48GB)

A100

CogVideoX-2B

RTX 3080 (10GB)

RTX 3090

RTX 4090

Mochi 1

RTX 3090 (24GB)

A6000 (48GB)

A100

LTX-Video

RTX 3080 (10GB)

RTX 4080

RTX 4090

Оценка стоимости за видео


Когда что использовать

Руководство по принятию решений


Полезные ссылки


Резюме

Модель
Использовать когда

Hunyuan Video

Если важнее всего лучшее качество, доступны A100+

Wan2.1

Лучший баланс качества и эффективности

CogVideoX

Точное текст-видео, длинный нарратив

Mochi 1

Плавное движение, физика, открытые исследования

LTX-Video

Скорость, низкий VRAM, длинные видео

Экосистема открытой генерации видео развивается быстро. Для большинства развертываний Clore.ai Wan2.1 (1.3B для бюджета, 14B для качества) предлагает лучшее сочетание качества, скорости и эффективности использования ресурсов.

Последнее обновление

Это было полезно?