> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-hi/comparisons/video-gen-comparison.md).

# Video Generation की तुलना

Clore.ai GPU सर्वरों पर तैनाती के लिए प्रमुख ओपन-सोर्स वीडियो जनरेशन मॉडल की तुलना करें।

{% hint style="info" %}
**एआई वीडियो जनरेशन** 2024-2025 में यह तेजी से फैल गया है। यह गाइड शीर्ष ओपन-सोर्स मॉडलों — Hunyuan Video, Wan2.1, CogVideoX, Mochi 1, और LTX-Video — की गुणवत्ता, गति, VRAM आवश्यकताओं और उपयोग मामलों को कवर करके तुलना करता है।
{% endhint %}

***

## त्वरित निर्णय मैट्रिक्स

|                        | Hunyuan Video | (6GB!) या  | CogVideoX  | Mochi 1    | LTX-Video  |
| ---------------------- | ------------- | ---------- | ---------- | ---------- | ---------- |
| **डेवलपर**             | टेनसेंट       | अलीबाबा    | Zhipu AI   | Genmo      | LightRicks |
| **गुणवत्ता**           | ⭐⭐⭐⭐⭐         | ⭐⭐⭐⭐⭐      | ⭐⭐⭐⭐       | ⭐⭐⭐⭐       | ⭐⭐⭐        |
| **गति**                | धीमा          | मध्यम      | मध्यम      | मध्यम      | **तेज़**   |
| **न्यूनतम VRAM**       | 24GB          | 16GB       | 16GB       | 24GB       | **8GB**    |
| **अधिकतम रिज़ॉल्यूशन** | 1280×720      | 1280×720   | 1440×960   | 848×480    | 1216×704   |
| **अधिकतम लंबाई**       | 5s            | 5s         | 6s         | 5.4s       | 2min       |
| **लाइसेंस**            | CLA           | Apache 2.0 | Apache 2.0 | Apache 2.0 | Apache 2.0 |
| **GitHub स्टार्स**     | 10K+          | 7K+        | 6K+        | 4K+        | 5K+        |

***

## समीक्षा

### Hunyuan Video

टेनसेंट का Hunyuan Video प्रारंभिक 2025 तक सबसे अच्छा ओपन-सोर्स वीडियो जनरेशन मॉडल माना जाता है। यह असाधारण मोशन गुणवत्ता के साथ ट्रांसफॉर्मर-आधारित आर्किटेक्चर का उपयोग करता है।

**मुख्य विनिर्देश**: 13B पैरामीटर, 720p पर 5s, 24GB+ VRAM की आवश्यकता

### (6GB!) या

अलीबाबा का Wan (Wenying) 2.1 Hunyuan का एक मजबूत प्रतिस्पर्धी है, जो समान गुणवत्ता प्रदान करता है और न्यूनतम VRAM आवश्यकताएँ कम रखता है। यह 1.3B और 14B पैरामीटर वेरिएंट में उपलब्ध है।

**मुख्य विनिर्देश**: 1.3B (लाइट) या 14B, 720p पर 5s, 1.3B के लिए 16GB+ VRAM

### CogVideoX

Zhipu AI का CogVideoX सटीक टेक्स्ट-अनुगमन और संगत लंबी-फॉर्म वीडियो पर केंद्रित है। यह सिनेमाई सामग्री और कहानी-चालित जनरेशन के लिए विशेष रूप से मजबूत है।

**मुख्य विनिर्देश**: 5B/10B पैरामीटर, 1440×960 पर 6s, 16GB+ VRAM

### Mochi 1

Genmo का Mochi 1 चिकना, तरल मोशन और वास्तविकवादपूर्ण फिजिक्स के लिए जाना जाता है। यह एक नवीन AsymmDiT आर्किटेक्चर का उपयोग करता है। पूरी तरह से ओपन-सोर्स (वेट्स + ट्रेनिंग कोड) उपलब्ध है।

**मुख्य विनिर्देश**: 10B पैरामीटर, 848×480 पर 5.4s, 24GB VRAM

### LTX-Video

LightRick का LTX-Video सबसे ऊपर इनफरेंस स्पीड को प्राथमिकता देता है। यह आधुनिक GPU पर असल-समय या लगभग असल-समय में वीडियो जेनरेट कर सकता है — इंटरैक्टिव एप्लिकेशनों के लिए आदर्श।

**मुख्य विनिर्देश**: 2B पैरामीटर, 2 मिनट तक की वीडियो, 8GB VRAM

***

## गुणवत्ता तुलना

### EvalCrafter बेंचमार्क (2025)

{% hint style="info" %}
गुणवत्ता विषयगत है। ये स्कोर VBench और EvalCrafter बेंचमार्क से समुदाय के समेकित मत को दर्शाते हैं।
{% endhint %}

| मॉडल          | VBench स्कोर | मोशन गुणवत्ता | टेक्स्ट संरेखण | सौंदर्यशास्त्र |
| ------------- | ------------ | ------------- | -------------- | -------------- |
| Hunyuan Video | **83.2**     | **अत्युत्तम** | अत्युत्तम      | अत्युत्तम      |
| Wan2.1 (14B)  | **82.8**     | अत्युत्तम     | अत्युत्तम      | अत्युत्तम      |
| CogVideoX-5B  | 79.6         | अच्छा         | **बहुत अच्छा** | अच्छा          |
| Mochi 1       | 77.4         | बहुत अच्छा    | अच्छा          | अच्छा          |
| LTX-Video     | 71.2         | अच्छा         | अच्छा          | स्वीकार्य      |

### गुणात्मक मजबूतियां

| मॉडल          | सबसे अच्छा हेतु                     | कमज़ोरियाँ                    |
| ------------- | ----------------------------------- | ----------------------------- |
| Hunyuan Video | कुल मिलाकर गुणवत्ता, सिनेमैटोग्राफी | बहुत धीमा, VRAM-भूखा          |
| (6GB!) या     | गुणवत्ता/कुशलता का संतुलन, I2V      | कभी-कभी अधिक-सैचुरेटेड        |
| CogVideoX     | लॉन्ग-फॉर्म नैरेटिव, टेक्स्ट सटीकता | कम गतिशील मोशन                |
| Mochi 1       | तरल मोशन, फिजिक्स                   | निम्न रिज़ॉल्यूशन सीमा        |
| LTX-Video     | गति, लंबी वीडियो                    | अन्य के मुकाबले गुणवत्ता अंतर |

***

## स्पीड बेंचमार्क

### जनरेशन समय (A100 80GB, एकल GPU)

| मॉडल          | 480p 5s      | 720p 5s     | 1080p 5s |
| ------------- | ------------ | ----------- | -------- |
| Hunyuan Video | 45 मिनिट     | \~3 घंटे    | ❌ OOM    |
| Wan2.1 (14B)  | 15 मिनिट     | 45 मिनिट    | ❌ OOM    |
| Wan2.1 (1.3B) | 3 मिनिट      | 8 मिनिट     | ❌ OOM    |
| CogVideoX-5B  | 10 मिनिट     | 25 मिनिट    | ❌ OOM    |
| Mochi 1       | 8 मिनिट      | ❌ OOM       | ❌ OOM    |
| LTX-Video     | **45 सेकंड** | **3 मिनिट** | 8 मिनिट  |

{% hint style="warning" %}
**समय लगभग हैं** और सैम्पलर स्टेप्स (20-50), गाइडेंस स्केल, और हार्डवेयर के साथ बदलते हैं। प्रीव्यू के लिए कम स्टेप्स का उपयोग करें।
{% endhint %}

### अनुकूलन के साथ (TeaCache / FORA / Step Distillation)

अनुकूलित इनफरेंस जनरेशन समय को महत्वपूर्ण रूप से कम कर सकता है:

| मॉडल          | कैश के साथ        | स्पीडअप |
| ------------- | ----------------- | ------- |
| Hunyuan Video | \~15 मिनिट (720p) | 4×      |
| (6GB!) या     | \~12 मिनिट (720p) | \~4×    |
| CogVideoX     | \~8 मिनिट (720p)  | \~3×    |
| LTX-Video     | \~45s (720p)      | 4×      |

***

## VRAM आवश्यकताएँ

### मॉडल और रिज़ॉल्यूशन द्वारा न्यूनतम VRAM

| मॉडल          | 480p    | 720p  | 1080p |
| ------------- | ------- | ----- | ----- |
| Hunyuan Video | 24GB    | 40GB+ | ❌     |
| Wan2.1 (14B)  | 24GB    | 40GB+ | ❌     |
| Wan2.1 (1.3B) | **8GB** | 16GB  | 24GB  |
| CogVideoX-5B  | 16GB    | 24GB  | ❌     |
| CogVideoX-2B  | **8GB** | 16GB  | ❌     |
| Mochi 1       | 24GB    | ❌     | ❌     |
| LTX-Video     | **8GB** | 12GB  | 24GB  |

### मेमोरी अनुकूलन तकनीकें

#### क्वांटाइजेशन

```python
# CogVideoX 8-बिट क्वांटाइजेशन के साथ (VRAM आधा कर देता है)
from diffusers import CogVideoXPipeline
import torch

pipe = CogVideoXPipeline.from_pretrained(
    "THUDM/CogVideoX-5b",
    torch_dtype=torch.float16
)
pipe.enable_model_cpu_offload()  # VRAM को और घटाता है
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()
```

#### CPU ऑफलोडिंग

```python
# Wan2.1 के लिए कम VRAM हेतु CPU ऑफलोड
from diffusers import WanPipeline

pipe = WanPipeline.from_pretrained(
    "Wan-AI/Wan2.1-T2V-1.3B-Diffusers",
    torch_dtype=torch.bfloat16
)
pipe.enable_model_cpu_offload()
```

***

## Hunyuan Video: गहन विवरण

### आर्किटेक्चर

* **13B DiT** (डिफ्यूजन ट्रांसफॉर्मर) पैरामीटर
* सभी स्पेशियल और टेम्पोरल टोकन पर पूर्ण अटेंशन
* 1B+ वीडियो क्लिप्स पर प्रशिक्षित

### Clore.ai पर तैनाती

```bash
# क्लोन और इंस्टॉल
git clone https://github.com/Tencent/HunyuanVideo
cd HunyuanVideo
pip install -r requirements.txt

# वेट्स डाउनलोड (~87GB)
huggingface-cli download tencent/HunyuanVideo --local-dir ./weights

# जेनरेट करें
python sample_video.py \
  --video-size 720 1280 \
  --video-length 129 \
  --infer-steps 50 \
  --prompt "A majestic eagle soaring over snow-capped mountains" \
  --flow-shift 7.0 \
  --embedded-cfg-scale 6.0 \
  --save-path ./outputs
```

### Via ComfyUI

```bash
# ComfyUI के लिए HunyuanVideo नोड्स इंस्टॉल करें
cd ComfyUI/custom_nodes
git clone https://github.com/kijai/ComfyUI-HunyuanVideoWrapper
pip install -r ComfyUI-HunyuanVideoWrapper/requirements.txt
```

**उत्तम हेतु**: सबसे उच्च गुणवत्ता वाला सिनेमाई वीडियो जनरेशन, कोई VRAM बाधा नहीं

***

## Wan2.1: गहन विवरण

### आर्किटेक्चर

* **दो वेरिएंट**: Wan2.1-T2V-1.3B और Wan2.1-T2V-14B
* **छवि-से-वीडियो** (I2V) मॉडल भी उपलब्ध
* मजबूत बहुभाषी (चीनी + अंग्रेजी) प्रॉम्प्ट सपोर्ट

### Clore.ai पर तैनाती

```python
from diffusers import WanPipeline
from diffusers.utils import export_to_video
import torch

# 1.3B मॉडल — 8-16GB VRAM में फिट होता है
pipe = WanPipeline.from_pretrained(
    "Wan-AI/Wan2.1-T2V-1.3B-Diffusers",
    torch_dtype=torch.bfloat16,
)
pipe.to("cuda")

output = pipe(
    prompt="A serene Japanese garden with cherry blossoms falling",
    negative_prompt="low quality, blurry",
    height=480,
    width=832,
    num_frames=81,
    num_inference_steps=50,
    guidance_scale=5.0,
).frames[0]

export_to_video(output, "wan_video.mp4", fps=16)
```

### Wan2.1 के साथ इमेज-टू-वीडियो

```python
from diffusers import WanImageToVideoPipeline
from PIL import Image

pipe = WanImageToVideoPipeline.from_pretrained(
    "Wan-AI/Wan2.1-I2V-14B-480P-Diffusers",
    torch_dtype=torch.bfloat16,
)
pipe.enable_model_cpu_offload()

image = Image.open("input.jpg")
output = pipe(
    image=image,
    prompt="The person walks forward confidently",
    num_frames=81,
).frames[0]
```

**उत्तम हेतु**: गुणवत्ता और कुशलता का संतुलन, I2V, बहुभाषी

***

## CogVideoX: गहन विवरण

### आर्किटेक्चर

* **एक्सपर्ट ट्रांसफॉर्मर** 3D पूर्ण अटेंशन के साथ
* **5B और 10B** पैरामीटर वेरिएंट्स
* दृश्य गुणवत्ता के लिए CogView3 इमेज एन्कोडर

### Clore.ai पर तैनाती

```python
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video
import torch

pipe = CogVideoXPipeline.from_pretrained(
    "THUDM/CogVideoX-5b",
    torch_dtype=torch.bfloat16
)
pipe.to("cuda")
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()

video = pipe(
    prompt="A time-lapse of a city at night with light trails from cars",
    num_videos_per_prompt=1,
    num_inference_steps=50,
    num_frames=49,
    guidance_scale=6,
    generator=torch.Generator(device="cuda").manual_seed(42),
).frames[0]

export_to_video(video, "cogvideo.mp4", fps=8)
```

**उत्तम हेतु**: सटीक टेक्स्ट-टू-वीडियो, कथात्मक सामग्री, लंबी-फॉर्म जनरेशन

***

## Mochi 1: गहन विवरण

### आर्किटेक्चर

* **AsymmDiT** — असममित डिफ्यूजन ट्रांसफॉर्मर
* टेम्पोरल सुसंगति और तरल मोशन पर फोकस
* ट्रेनिंग कोड सहित पूरी तरह ओपन-सोर्स

### Clore.ai पर तैनाती

```bash
pip install mochi-preview

python -c "
from mochi_preview.pipelines import DecoderModelFactory, DitModelFactory, MochiSingleGPUPipeline, T5ModelFactory
import tempfile
from pathlib import Path

pipeline = MochiSingleGPUPipeline(
    text_encoder_factory=T5ModelFactory(),
    dit_factory=DitModelFactory(model_path='./weights/mochi-dit.safetensors'),
    decoder_factory=DecoderModelFactory(model_path='./weights/mochi-vae.safetensors'),
    cpu_offload=True,
    decode_type='tiled_full',
)

video = pipeline(
    height=480, width=848,
    num_frames=163,
    num_inference_steps=64,
    sigma_schedule_type='linear_quadratic',
    cfg_schedule_type='linear',
    conditioning_args={'prompt': 'A dolphin leaping through ocean waves at sunset'},
)
"
```

**उत्तम हेतु**: तरल मोशन, वास्तविक फिजिक्स, शोध उपयोग के मामले

***

## LTX-Video: गहन विवरण

### आर्किटेक्चर

* **2B पैरामीटर** DiT — छोटा, तेज
* नेटिव **लंबी वीडियो** सपोर्ट (2 मिनट तक)
* रियल-टाइम या लगभग रियल-टाइम जनरेशन के लिए डिज़ाइन किया गया

### Clore.ai पर तैनाती

```python
from diffusers import LTXPipeline
from diffusers.utils import export_to_video
import torch

pipe = LTXPipeline.from_pretrained(
    "Lightricks/LTX-Video",
    torch_dtype=torch.bfloat16
)
pipe.to("cuda")

video = pipe(
    prompt="A butterfly landing on a flower in a summer garden",
    negative_prompt="worst quality, inconsistent motion, blurry",
    width=704,
    height=480,
    num_frames=161,
    decode_timestep=0.03,
    decode_noise_scale=0.025,
    num_inference_steps=50,
).frames[0]

export_to_video(video, "ltx_video.mp4", fps=24)
```

**उत्तम हेतु**: तेज़ जनरेशन, इंटरैक्टिव एप्लिकेशन, लंबी वीडियो, सीमित VRAM (8GB)

***

## फ़ीचर तुलना

### क्षमताओं का अवलोकन

| फ़ीचर              | Hunyuan | (6GB!) या | CogVideoX | Mochi | LTX |
| ------------------ | ------- | --------- | --------- | ----- | --- |
| टेक्स्ट-टू-वीडियो  | ✅       | ✅         | ✅         | ✅     | ✅   |
| छवि-से-वीडियो      | ✅       | ✅         | ✅         | ❌     | ✅   |
| वीडियो-टू-वीडियो   | ❌       | ❌         | ✅         | ❌     | ✅   |
| ControlNet         | आंशिक   | ❌         | ✅         | ❌     | ❌   |
| LoRA समर्थन        | ✅       | ✅         | ✅         | ❌     | ✅   |
| ComfyUI नोड्स      | ✅       | ✅         | ✅         | ✅     | ✅   |
| लंबी वीडियो (>10s) | ❌       | ❌         | आंशिक     | ❌     | ✅   |
| चीनी प्रॉम्प्ट     | ✅       | ✅         | ✅         | ❌     | ❌   |

***

## Clore.ai GPU सिफारिशें

### प्रत्येक मॉडल के लिए

| मॉडल          | न्यूनतम GPU     | अनुशंसित     | आदर्श       |
| ------------- | --------------- | ------------ | ----------- |
| Hunyuan Video | RTX 3090 (24GB) | A6000 (48GB) | A100 (80GB) |
| Wan2.1 14B    | RTX 3090 (24GB) | A6000 (48GB) | A100 (80GB) |
| Wan2.1 1.3B   | RTX 3080 (10GB) | RTX 3090     | RTX 4090    |
| CogVideoX-5B  | RTX 3090 (24GB) | A6000 (48GB) | A100        |
| CogVideoX-2B  | RTX 3080 (10GB) | RTX 3090     | RTX 4090    |
| Mochi 1       | RTX 3090 (24GB) | A6000 (48GB) | A100        |
| LTX-Video     | RTX 3080 (10GB) | RTX 4080     | RTX 4090    |

### प्रति वीडियो लागत अनुमान

```
Hunyuan Video (720p, 5s) A100 80GB पर (~$1.50/hr):
  समय: ~45 मिनिट → लागत: ~$1.12 प्रति वीडियो

Wan2.1-1.3B (480p, 5s) RTX 3090 पर (~$0.50/hr):
  समय: ~3 मिनिट → लागत: ~$0.025 प्रति वीडियो

LTX-Video (720p, 5s) RTX 4090 पर (~$0.60/hr):
  समय: ~3 मिनिट → लागत: ~$0.030 प्रति वीडियो
```

***

## कब किसे उपयोग करें

### निर्णय मार्गदर्शिका

```
अधिकतम गुणवत्ता (कोई लागत सीमा नहीं)?
  → A100 पर Hunyuan Video

सबसे अच्छा गुणवत्ता/लागत संतुलन?
  → A6000 पर Wan2.1 14B

सीमित VRAM (8-12GB)?
  → LTX-Video या Wan2.1 1.3B

त्वरित जनरेशन चाहिए?
  → LTX-Video

इमेज-टू-वीडियो चाहिए?
  → Wan2.1 I2V या CogVideoX

लंबी वीडियो चाहिए (>10s)?
  → LTX-Video

शोध/फाइन-ट्यूनिंग?
  → Mochi 1 (ओपन ट्रेनिंग कोड) या CogVideoX

ComfyUI वर्कफ़्लो?
  → सभी समर्थित, Hunyuan/Wan सर्वश्रेष्ठ नोड्स
```

***

## उपयोगी लिंक

* [Hunyuan Video GitHub](https://github.com/Tencent/HunyuanVideo)
* [Wan2.1 HuggingFace पर](https://huggingface.co/Wan-AI)
* [CogVideoX GitHub](https://github.com/THUDM/CogVideo)
* [Mochi 1 GitHub](https://github.com/genmoai/mochi)
* [LTX-Video GitHub](https://github.com/Lightricks/LTX-Video)
* [वीडियो जनरेशन लीडरबोर्ड](https://huggingface.co/spaces/ArtificialAnalysis/video-generation-arena-leaderboard)

***

## सारांश

| मॉडल              | कब उपयोग करें                                             |
| ----------------- | --------------------------------------------------------- |
| **Hunyuan Video** | जब सर्वोत्तम गुणवत्ता सबसे महत्वपूर्ण हो, A100+ उपलब्ध हो |
| **(6GB!) या**     | गुणवत्ता और कुशलता का सर्वश्रेष्ठ संतुलन                  |
| **CogVideoX**     | सटीक टेक्स्ट-टू-वीडियो, लंबी कथाएँ                        |
| **Mochi 1**       | तरल मोशन, फिजिक्स, ओपन रिसर्च                             |
| **LTX-Video**     | गति, कम VRAM, लंबी वीडियो                                 |

ओपन-सोर्स वीडियो जनरेशन पारिस्थितिकी तंत्र तेज़ी से बदलता है। अधिकांश Clore.ai तैनातीयों के लिए, **(6GB!) या** (बजट के लिए 1.3B, गुणवत्ता के लिए 14B) गुणवत्ता, गति और संसाधन दक्षता का सर्वोत्तम संयोजन प्रदान करता है।


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-hi/comparisons/video-gen-comparison.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
