> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-hi/video-generation/framepack.md).

# FramePack वीडियो जनरेशन

FramePack AI वीडियो जनरेशन में एक बड़ी उन्नति है: यह वीडियो बना सकता है जो **सिर्फ 6GB VRAM**का उपयोग करके 2 मिनट तक लंबे होते हैं। HunyuanVideo आर्किटेक्चर पर निर्मित, FramePack का मुख्य नवाचार फ्रेम्स को कुशलतापूर्वक पैक करना है ताकि GPU मेमोरी वीडियो की लंबाई के बावजूद स्थिर रहे। इससे AI वीडियो जनरेशन उन बजट GPUs पर भी सुलभ बन जाता है जो पहले बहुत सीमित माने जाते थे।

## प्रमुख विशेषताएँ

* **न्यूनतम 6GB VRAM** : RTX 3060, RTX 3070 पर काम करता है, यहां तक कि GTX 1060 पर भी!
* **2 मिनट तक की वीडियो** : वीडियो की लंबाई के बावजूद स्थिर VRAM उपयोग
* **इमेज-टू-वीडियो** : किसी भी इमेज को टेक्स्ट प्रॉम्प्ट से एनिमेट करें
* **वेब UI शामिल** : आसान उपयोग के लिए Gradio-आधारित इंटरफ़ेस
* **HunyuanVideo पर बनाया गया** : Tencent के वीडियो डिफ्यूज़न आर्किटेक्चर का लाभ उठाता है
* **ओपन सोर्स** : GitHub पर सक्रिय विकास

## आवश्यकताएँ

| घटक    | न्यूनतम      | अनुशंसित      |
| ------ | ------------ | ------------- |
| GPU    | GTX 1060 6GB | RTX 4090 24GB |
| VRAM   | 6GB          | 12GB+         |
| RAM    | 16GB         | 32GB          |
| डिस्क  | 30GB         | 50GB          |
| CUDA   | 11.8+        | 12.0+         |
| Python | 3.10+        | 3.11          |

**अनुशंसित Clore.ai GPU** : RTX 3080 10GB (\~$0.2–0.5/दिन) — कम लागत पर शानदार गुणवत्ता!

### स्पीड संदर्भ

| GPU           | प्रति फ्रेम समय | 60-फ्रेम वीडियो (\~30fps पर \~2s) |
| ------------- | --------------- | --------------------------------- |
| RTX 3060 12GB | \~30 सेकंड      | \~30 मिनट                         |
| RTX 3080 10GB | \~18 सेकंड      | \~18 मिनट                         |
| RTX 4080 16GB | \~12 सेकंड      | \~12 मिनट                         |
| RTX 4090 24GB | \~8 सेकंड       | \~8 मिनट                          |
| RTX 5090 32GB | \~5 सेकंड       | \~5 मिनट                          |

## इंस्टॉलेशन

```bash
# रिपॉज़िटरी क्लोन करें
git clone https://github.com/lllyasviel/FramePack.git
cd FramePack

# conda वातावरण बनाएं (अनुशंसित)
conda create -n framepack python=3.11 -y
conda activate framepack

# निर्भरताएँ इंस्टॉल करें
pip install -r requirements.txt

# CUDA के साथ PyTorch इंस्टॉल करें
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
```

### Docker सेटअप

```bash
docker run --gpus all -p 7860:7860 \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  -v ./outputs:/app/outputs \
  ghcr.io/lllyasviel/framepack:latest
```

## त्वरित आरंभ — वेब UI

FramePack उपयोग करने का सबसे आसान तरीका:

```bash
cd FramePack
python app.py --port 7860

# कम VRAM के लिए (6GB):
python app.py --port 7860 --low-vram

# http://localhost:7860 पर एक्सेस करें
```

**वेब UI वर्कफ़्लो:**

1. एक स्रोत इमेज अपलोड करें (पहला फ्रेम)
2. मोशन का वर्णन करने वाला टेक्स्ट प्रॉम्प्ट दर्ज करें ("कैमरा धीरे-धीरे ज़ूम इन करता है", "किसी व्यक्ति का आगे बढ़ना")
3. वीडियो की लंबाई सेट करें (फ्रेम की संख्या)
4. Generate पर क्लिक करें
5. MP4 डाउनलोड करें

## उपयोग

FramePack एक **Gradio वेब एप्लिकेशन**है, न कि एक Python लाइब्रेरी। प्रमुख इंटरफ़ेस वेब UI है।

### वेब UI वर्कफ़्लो

1. खोलें `http://localhost:7860` लॉन्च करने के बाद
2. एक स्रोत इमेज अपलोड करें (यह पहला फ्रेम होगा)
3. इच्छित मोशन का वर्णन करने वाला टेक्स्ट प्रॉम्प्ट दर्ज करें
4. फ्रेम की संख्या सेट करें (ज़्यादा = लंबा वीडियो)
5. क्लिक करें **Generate** → प्रतीक्षा करें → MP4 डाउनलोड करें

### Gradio Client के माध्यम से API एक्सेस

आप Gradio API का उपयोग करके प्रोग्रामैटिक रूप से FramePack को कॉल कर सकते हैं:

```python
from gradio_client import Client

# चल रहे FramePack इंस्टेंस से कनेक्ट करें
client = Client("http://localhost:7860")

# इमेज + प्रॉम्प्ट से वीडियो जनरेट करें
result = client.predict(
    "input_photo.jpg",                              # स्रोत इमेज
    "the person smiles and turns their head slowly", # प्रॉम्प्ट
    60,                                              # फ्रेम की संख्या
    7.5,                                             # guidance scale
    30,                                              # inference steps
    42,                                              # seed
    api_name="/generate"
)
print(f"वीडियो सेव हुआ: {result}")
```

### Gradio Client के साथ बैच प्रोसेसिंग

```python
from gradio_client import Client
import glob

client = Client("http://localhost:7860")

prompts = [
    ("photo1.jpg", "नरम रोशनी के साथ सौम्य कैमरा ज़ूम"),
    ("photo2.jpg", "बालों में हवा, बादलों की हलचल"),
    ("photo3.jpg", "धीरे-धीरे जूम आउट करके पूर्ण दृश्य दिखाना"),
]

for img_path, prompt in prompts:
    result = client.predict(img_path, prompt, 60, 7.5, 30, -1, api_name="/generate")
    print(f"पूर्ण: {img_path} → {result}")
```

## रिज़ॉल्यूशन मार्गदर्शिका

| VRAM | अधिकतम रिज़ॉल्यूशन | गुणवत्ता                 |
| ---- | ------------------ | ------------------------ |
| 6GB  | 512×512            | सोशल मीडिया के लिए अच्छा |
| 8GB  | 640×640            | बेहतर डिटेल              |
| 10GB | 512×768            | पोर्ट्रेट/लैंडस्केप      |
| 12GB | 768×768            | उच्च गुणवत्ता            |
| 24GB | 1024×768           | सर्वोत्तम गुणवत्ता       |

## Clore.ai उपयोगकर्ताओं के लिए सुझाव

* **बजट-फ्रेंडली** : यह सस्ते GPUs पर काम करने वाले कुछ वीडियो AI मॉडलों में से एक है ($0.15–0.3/दिन RTX 3060 के लिए!)
* **उपयोग करें `--low-vram` फ्लैग** : 6–8GB GPUs के लिए आवश्यक — स्वचालित रूप से CPU ऑफलोडिंग सक्षम करता है
* **512×512 ठीक है** : सोशल मीडिया (TikTok, Reels) के लिए, 512px पूरी तरह से स्वीकार्य है
* **लंबा ≠ अधिक VRAM** : अन्य वीडियो मॉडलों के विपरीत, FramePack VRAM को स्थिर रखता है — स्वतंत्र रूप से लंबे वीडियो बनाएं
* **मॉडल पहले से डाउनलोड करें** : पहली बार चलाने पर \~15GB डाउनलोड होता है। एक बार चलाने के बाद, आपके क्लोर सेशन में मॉडल कैश हो जाते हैं
* **अपस्केलिंग के साथ संयोजन करें** : 512×512 पर जनरेट करें, फिर Real-ESRGAN का उपयोग करके 2K/4K तक अपस्केल करें

## प्रॉम्प्ट सुझाव

अच्छे प्रॉम्प्ट बताते हैं **मोशन**का, सिर्फ उपस्थिति नहीं:

```
✅ "कैमरा धीरे-धीरे दाईं ओर पैन करता है, एक पर्वतीय दृश्य उजागर होता है"
✅ "व्यक्ति पलकें झपकाता है और हल्की मुस्कान करता है, हवा उसके बाल हिला रही है"
✅ "धीरे-धीरे ज़ूम आउट करें, पूरी इमारत दिखाते हुए"

❌ "एक खूबसूरत सूर्यास्त" (कोई मोशन वर्णित नहीं)
❌ "उच्च गुणवत्ता, 4K, विस्तृत" (शैली के शब्द ज्यादा मदद नहीं करते)
```

## समस्याओं का निवारण

| समस्या                   | समाधान                                                                         |
| ------------------------ | ------------------------------------------------------------------------------ |
| CUDA में आउट ऑफ मेमोरी   | उपयोग करें `--low-vram` फ्लैग, रिज़ॉल्यूशन को 512×512 तक घटाएँ                 |
| बहुत धीमी जेनरेशन        | 6GB GPUs के लिए सामान्य (\~30s/फ्रेम)। 4x स्पीड के लिए RTX 4090 का उपयोग करें  |
| काले/करप्टेड फ्रेम       | PyTorch अपडेट करें: `pip install torch --upgrade`                              |
| मॉडल डाउनलोड अटका हुआ है | डिस्क स्पेस जांचें (30GB फ्री चाहिए)। कोशिश करें `HF_HUB_ENABLE_HF_TRANSFER=1` |
| वेब UI शुरू नहीं होगा    | चेक करें कि पोर्ट 7860 फ्री है: `lsof -i :7860`                                |

## अधिक पढ़ने के लिए

* [GitHub रिपॉजिटरी](https://github.com/lllyasviel/FramePack)
* [HunyuanVideo (बेस मॉडल)](https://github.com/Tencent/HunyuanVideo)
* [Clore.ai GPU तुलना](/guides/guides_v2-hi/getting-started/gpu-comparison.md) — अपनी जरूरतों के लिए सबसे सस्ता GPU खोजें


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-hi/video-generation/framepack.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
