# Сравнение генерации видео

Сравнение ведущих открытых моделей генерации видео для развертывания на GPU-серверах Clore.ai.

{% hint style="info" %}
**Генерация видео с помощью ИИ** взлетела в 2024–2025 годах. Это руководство сравнивает топовые открытые модели — Hunyuan Video, Wan2.1, CogVideoX, Mochi 1 и LTX-Video — по качеству, скорости, требованиям к VRAM и областям применения.
{% endhint %}

***

## Краткая матрица принятия решений

|                             | Hunyuan Video | Wan2.1     | CogVideoX  | Mochi 1    | LTX-Video  |
| --------------------------- | ------------- | ---------- | ---------- | ---------- | ---------- |
| **Разработчик**             | Tencent       | Alibaba    | Zhipu AI   | Genmo      | LightRicks |
| **Качество**                | ⭐⭐⭐⭐⭐         | ⭐⭐⭐⭐⭐      | ⭐⭐⭐⭐       | ⭐⭐⭐⭐       | ⭐⭐⭐        |
| **Скорость**                | Медленно      | Средне     | Средне     | Средне     | **Быстро** |
| **Мин. VRAM**               | 24GB          | 16GB       | 16GB       | 24GB       | **8 ГБ**   |
| **Максимальное разрешение** | 1280×720      | 1280×720   | 1440×960   | 848×480    | 1216×704   |
| **Максимальная длина**      | 5с            | 5с         | 6с         | 5.4с       | 2 мин      |
| **Лицензия**                | CLA           | Apache 2.0 | Apache 2.0 | Apache 2.0 | Apache 2.0 |
| **Звезды на GitHub**        | 10K+          | 7K+        | 6K+        | 4K+        | 5K+        |

***

## Обзор

### Hunyuan Video

Hunyuan Video от Tencent широко считается лучшей открытой моделью генерации видео на начало 2025 года. Она использует архитектуру на базе трансформеров с выдающимся качеством движения.

**Ключевые характеристики**: 13B параметров, 5с при 720p, требует 24GB+ VRAM

### Wan2.1

Wan (Wenying) 2.1 от Alibaba является сильным конкурентом Hunyuan, предлагая схожее качество при более низких минимальных требованиях к VRAM. Доступны варианты с 1.3B и 14B параметрами.

**Ключевые характеристики**: 1.3B (lite) или 14B, 5с при 720p, 16GB+ VRAM для 1.3B

### CogVideoX

CogVideoX от Zhipu AI ориентирован на точное соответствие тексту и связную генерацию длинных видео. Особенно хорош для кинематографичного контента и генерации, ориентированной на сюжет.

**Ключевые характеристики**: 5B/10B параметров, 6с при 1440×960, 16GB+ VRAM

### Mochi 1

Mochi 1 от Genmo известен плавностью движения и реалистичной физикой. Использует новую архитектуру AsymmDiT. Полностью открыт (веса + код обучения).

**Ключевые характеристики**: 10B параметров, 5.4с при 848×480, 24GB VRAM

### LTX-Video

LTX-Video от LightRick делает приоритет на скорость инференса. Может генерировать видео в реальном или почти реальном времени на современных GPU — идеально для интерактивных приложений.

**Ключевые характеристики**: 2B параметров, до 2 минут видео, 8GB VRAM

***

## Сравнение качества

### Бенчмарк EvalCrafter (2025)

{% hint style="info" %}
Качество субъективно. Эти оценки отражают консенсус сообщества по бенчмаркам VBench и EvalCrafter.
{% endhint %}

| Модель        | Оценка VBench | Качество движения | Соответствие тексту | Эстетика  |
| ------------- | ------------- | ----------------- | ------------------- | --------- |
| Hunyuan Video | **83.2**      | **Отлично**       | Отлично             | Отлично   |
| Wan2.1 (14B)  | **82.8**      | Отлично           | Отлично             | Отлично   |
| CogVideoX-5B  | 79.6          | Хорошо            | **Очень хорошо**    | Хорошо    |
| Mochi 1       | 77.4          | Очень хорошо      | Хорошо              | Хорошо    |
| LTX-Video     | 71.2          | Хорошо            | Хорошо              | Приемлемо |

### Качественные сильные стороны

| Модель        | Лучше всего подходит для                    | Слабые стороны                           |
| ------------- | ------------------------------------------- | ---------------------------------------- |
| Hunyuan Video | Общее качество, кинематография              | Очень медленная, требует много VRAM      |
| Wan2.1        | Баланс качества/эффективности, I2V          | Иногда переизбыточная насыщенность       |
| CogVideoX     | Длинные формы с сюжетом, точность по тексту | Менее динамичное движение                |
| Mochi 1       | Плавное движение, физика                    | Нижний предел разрешения                 |
| LTX-Video     | Скорость, длинные видео                     | Разрыв в качестве по сравнению с другими |

***

## Бенчмарки скорости

### Время генерации (A100 80GB, один GPU)

| Модель        | 480p 5с    | 720p 5с   | 1080p 5с |
| ------------- | ---------- | --------- | -------- |
| Hunyuan Video | 45 мин     | \~3 часа  | ❌ OOM    |
| Wan2.1 (14B)  | 15 мин     | 45 мин    | ❌ OOM    |
| Wan2.1 (1.3B) | 3 мин      | 8 мин     | ❌ OOM    |
| CogVideoX-5B  | 10 мин     | 25 мин    | ❌ OOM    |
| Mochi 1       | 8 мин      | ❌ OOM     | ❌ OOM    |
| LTX-Video     | **45 сек** | **3 мин** | 8 мин    |

{% hint style="warning" %}
**Время приблизительное** и варьируется в зависимости от шагов сэмплера (20–50), масштаба управления и железа. Для превью используйте меньше шагов.
{% endhint %}

### С оптимизацией (TeaCache / FORA / Step Distillation)

Оптимизированный инференс может существенно сократить время генерации:

| Модель        | С кешем         | Ускорение |
| ------------- | --------------- | --------- |
| Hunyuan Video | \~15 мин (720p) | 4×        |
| Wan2.1        | \~12 мин (720p) | \~4×      |
| CogVideoX     | \~8 мин (720p)  | \~3×      |
| LTX-Video     | \~45с (720p)    | 4×        |

***

## Требования к VRAM

### Минимальный VRAM по модели и разрешению

| Модель        | 480p     | 720p  | 1080p |
| ------------- | -------- | ----- | ----- |
| Hunyuan Video | 24GB     | 40GB+ | ❌     |
| Wan2.1 (14B)  | 24GB     | 40GB+ | ❌     |
| Wan2.1 (1.3B) | **8 ГБ** | 16GB  | 24GB  |
| CogVideoX-5B  | 16GB     | 24GB  | ❌     |
| CogVideoX-2B  | **8 ГБ** | 16GB  | ❌     |
| Mochi 1       | 24GB     | ❌     | ❌     |
| LTX-Video     | **8 ГБ** | 12GB  | 24GB  |

### Приёмы оптимизации памяти

#### Квантование

```python
# CogVideoX с 8-битным квантованием (уменьшает VRAM вдвое)
from diffusers import CogVideoXPipeline
import torch

pipe = CogVideoXPipeline.from_pretrained(
    "THUDM/CogVideoX-5b",
    torch_dtype=torch.float16
)
pipe.enable_model_cpu_offload()  # Дополнительно уменьшает VRAM
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()
```

#### Выгрузка на CPU

```python
# Wan2.1 с выгрузкой на CPU для снижения VRAM
from diffusers import WanPipeline

pipe = WanPipeline.from_pretrained(
    "Wan-AI/Wan2.1-T2V-1.3B-Diffusers",
    torch_dtype=torch.bfloat16
)
pipe.enable_model_cpu_offload()
```

***

## Hunyuan Video: подробный обзор

### Архитектура

* **13B DiT** (Diffusion Transformer) параметры
* Полное внимание по всем пространственным и временным токенам
* Обучена на более чем 1 млрд видеоклипов

### Развертывание на Clore.ai

```bash
# Клонировать и установить
git clone https://github.com/Tencent/HunyuanVideo
cd HunyuanVideo
pip install -r requirements.txt

# Скачать веса (~87GB)
huggingface-cli download tencent/HunyuanVideo --local-dir ./weights

# Генерация
python sample_video.py \
  --video-size 720 1280 \
  --video-length 129 \
  --infer-steps 50 \
  --prompt "Величественный орёл, парящий над заснеженными горами" \
  --flow-shift 7.0 \
  --embedded-cfg-scale 6.0 \
  --save-path ./outputs
```

### Через ComfyUI

```bash
# Установить узлы HunyuanVideo для ComfyUI
cd ComfyUI/custom_nodes
git clone https://github.com/kijai/ComfyUI-HunyuanVideoWrapper
pip install -r ComfyUI-HunyuanVideoWrapper/requirements.txt
```

**Лучше всего для**: Генерация кинематографичного видео высочайшего качества, без ограничений по VRAM

***

## Wan2.1: подробный обзор

### Архитектура

* **Два варианта**: Wan2.1-T2V-1.3B и Wan2.1-T2V-14B
* **Модель Image-to-Video** (I2V) также доступна
* Хорошо работает с многоязычными (китайский + английский) промптами

### Развертывание на Clore.ai

```python
from diffusers import WanPipeline
from diffusers.utils import export_to_video
import torch

# Модель 1.3B — помещается в 8–16GB VRAM
pipe = WanPipeline.from_pretrained(
    "Wan-AI/Wan2.1-T2V-1.3B-Diffusers",
    torch_dtype=torch.bfloat16,
)
pipe.to("cuda")

output = pipe(
    prompt="Спокойный японский сад с опадающими лепестками сакуры",
    negative_prompt="низкое качество, размытость",
    height=480,
    width=832,
    num_frames=81,
    num_inference_steps=50,
    guidance_scale=5.0,
).frames[0]

export_to_video(output, "wan_video.mp4", fps=16)
```

### Image-to-Video с Wan2.1

```python
from diffusers import WanImageToVideoPipeline
from PIL import Image

pipe = WanImageToVideoPipeline.from_pretrained(
    "Wan-AI/Wan2.1-I2V-14B-480P-Diffusers",
    torch_dtype=torch.bfloat16,
)
pipe.enable_model_cpu_offload()

image = Image.open("input.jpg")
output = pipe(
    image=image,
    prompt="Человек уверенно идёт вперёд",
    num_frames=81,
).frames[0]
```

**Лучше всего для**: Баланс качества и эффективности, I2V, многоязычность

***

## CogVideoX: подробный обзор

### Архитектура

* **Экспертный трансформер** с 3D полным вниманием
* **Варианты на 5B и 10B** параметров
* Кодировщик изображений CogView3 для визуального качества

### Развертывание на Clore.ai

```python
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video
import torch

pipe = CogVideoXPipeline.from_pretrained(
    "THUDM/CogVideoX-5b",
    torch_dtype=torch.bfloat16
)
pipe.to("cuda")
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()

video = pipe(
    prompt="Таймлапс ночного города с световыми трассами от машин",
    num_videos_per_prompt=1,
    num_inference_steps=50,
    num_frames=49,
    guidance_scale=6,
    generator=torch.Generator(device="cuda").manual_seed(42),
).frames[0]

export_to_video(video, "cogvideo.mp4", fps=8)
```

**Лучше всего для**: Точное текст-видео, нарративный контент, генерация длинных форм

***

## Mochi 1: подробный обзор

### Архитектура

* **AsymmDiT** — асимметричный diffusion transformer
* Фокус на временной согласованности и плавном движении
* Полностью открытый, включая код обучения

### Развертывание на Clore.ai

```bash
pip install mochi-preview

python -c "
from mochi_preview.pipelines import DecoderModelFactory, DitModelFactory, MochiSingleGPUPipeline, T5ModelFactory
import tempfile
from pathlib import Path

pipeline = MochiSingleGPUPipeline(
    text_encoder_factory=T5ModelFactory(),
    dit_factory=DitModelFactory(model_path='./weights/mochi-dit.safetensors'),
    decoder_factory=DecoderModelFactory(model_path='./weights/mochi-vae.safetensors'),
    cpu_offload=True,
    decode_type='tiled_full',
)

video = pipeline(
    height=480, width=848,
    num_frames=163,
    num_inference_steps=64,
    sigma_schedule_type='linear_quadratic',
    cfg_schedule_type='linear',
    conditioning_args={'prompt': 'Дельфин, выпрыгивающий через океанские волны на закате'},
)
"
```

**Лучше всего для**: Плавное движение, реалистичная физика, исследовательские сценарии

***

## LTX-Video: подробный обзор

### Архитектура

* **2B параметра** DiT — меньше, быстрее
* Нативная **поддержка длинного видео** (до 2 минут)
* Разработан для генерации в реальном или почти реальном времени

### Развертывание на Clore.ai

```python
from diffusers import LTXPipeline
from diffusers.utils import export_to_video
import torch

pipe = LTXPipeline.from_pretrained(
    "Lightricks/LTX-Video",
    torch_dtype=torch.bfloat16
)
pipe.to("cuda")

video = pipe(
    prompt="Бабочка, приземляющаяся на цветок в летнем саду",
    negative_prompt="худшее качество, несовместимое движение, размытость",
    width=704,
    height=480,
    num_frames=161,
    decode_timestep=0.03,
    decode_noise_scale=0.025,
    num_inference_steps=50,
).frames[0]

export_to_video(video, "ltx_video.mp4", fps=24)
```

**Лучше всего для**: Быстрая генерация, интерактивные приложения, длинные видео, ограниченный VRAM (8GB)

***

## Сравнение функций

### Обзор возможностей

| Функция               | Hunyuan  | Wan2.1 | CogVideoX | Mochi | LTX |
| --------------------- | -------- | ------ | --------- | ----- | --- |
| Текст-видео           | ✅        | ✅      | ✅         | ✅     | ✅   |
| Модель Image-to-Video | ✅        | ✅      | ✅         | ❌     | ✅   |
| Видео-видео           | ❌        | ❌      | ✅         | ❌     | ✅   |
| ControlNet            | Частично | ❌      | ✅         | ❌     | ❌   |
| Поддержка LoRA        | ✅        | ✅      | ✅         | ❌     | ✅   |
| Узлы ComfyUI          | ✅        | ✅      | ✅         | ✅     | ✅   |
| Длинные видео (>10с)  | ❌        | ❌      | Частично  | ❌     | ✅   |
| Китайские промпты     | ✅        | ✅      | ✅         | ❌     | ❌   |

***

## Рекомендации Clore.ai по GPU

### Для каждой модели

| Модель        | Минимальный GPU | Рекомендуется | Идеально    |
| ------------- | --------------- | ------------- | ----------- |
| Hunyuan Video | RTX 3090 (24GB) | A6000 (48GB)  | A100 (80GB) |
| Wan2.1 14B    | RTX 3090 (24GB) | A6000 (48GB)  | A100 (80GB) |
| Wan2.1 1.3B   | RTX 3080 (10GB) | RTX 3090      | RTX 4090    |
| CogVideoX-5B  | RTX 3090 (24GB) | A6000 (48GB)  | A100        |
| CogVideoX-2B  | RTX 3080 (10GB) | RTX 3090      | RTX 4090    |
| Mochi 1       | RTX 3090 (24GB) | A6000 (48GB)  | A100        |
| LTX-Video     | RTX 3080 (10GB) | RTX 4080      | RTX 4090    |

### Оценка стоимости за видео

```
Hunyuan Video (720p, 5с) на A100 80GB (~$1.50/ч):
  Время: ~45 мин → Стоимость: ~ $1.12 за видео

Wan2.1-1.3B (480p, 5с) на RTX 3090 (~$0.50/ч):
  Время: ~3 мин → Стоимость: ~ $0.025 за видео

LTX-Video (720p, 5с) на RTX 4090 (~$0.60/ч):
  Время: ~3 мин → Стоимость: ~ $0.030 за видео
```

***

## Когда что использовать

### Руководство по принятию решений

```
Максимальное качество (без ограничения по затратам)?
  → Hunyuan Video на A100

Лучший баланс качество/цена?
  → Wan2.1 14B на A6000

Ограниченный VRAM (8–12GB)?
  → LTX-Video или Wan2.1 1.3B

Нужна быстрая генерация?
  → LTX-Video

Нужен Image-to-Video?
  → Wan2.1 I2V или CogVideoX

Нужны длинные видео (>10с)?
  → LTX-Video

Исследования/дообучение?
  → Mochi 1 (открытый код обучения) или CogVideoX

Рабочий процесс ComfyUI?
  → Все поддерживаются, лучшие узлы — Hunyuan/Wan
```

***

## Полезные ссылки

* [Hunyuan Video на GitHub](https://github.com/Tencent/HunyuanVideo)
* [Wan2.1 на HuggingFace](https://huggingface.co/Wan-AI)
* [CogVideoX на GitHub](https://github.com/THUDM/CogVideo)
* [Mochi 1 на GitHub](https://github.com/genmoai/mochi)
* [LTX-Video на GitHub](https://github.com/Lightricks/LTX-Video)
* [Таблица лидеров по генерации видео](https://huggingface.co/spaces/ArtificialAnalysis/video-generation-arena-leaderboard)

***

## Резюме

| Модель            | Использовать когда                                |
| ----------------- | ------------------------------------------------- |
| **Hunyuan Video** | Если важнее всего лучшее качество, доступны A100+ |
| **Wan2.1**        | Лучший баланс качества и эффективности            |
| **CogVideoX**     | Точное текст-видео, длинный нарратив              |
| **Mochi 1**       | Плавное движение, физика, открытые исследования   |
| **LTX-Video**     | Скорость, низкий VRAM, длинные видео              |

Экосистема открытой генерации видео развивается быстро. Для большинства развертываний Clore.ai **Wan2.1** (1.3B для бюджета, 14B для качества) предлагает лучшее сочетание качества, скорости и эффективности использования ресурсов.


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-ru/sravneniya/video-gen-comparison.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
