# DeepSeek V4 (1T MoE, बहु-माध्यमी)

{% hint style="info" %}
**स्थिति (4 मार्च, 2026):** DeepSeek V4 रिलीज निकट है — उम्मीद है मार्च 2026 के पहले सप्ताह में। यह गाइड vLLM/Ollama का उपयोग करके सेटअप को कवर करता है जब वेट्स HuggingFace पर उपलब्ध होंगे। जांचें [huggingface.co/deepseek-ai](https://huggingface.co/deepseek-ai) के लिए नवीनतम रिलीज।
{% endhint %}

DeepSeek V4 प्रारंभिक 2026 का सबसे प्रत्याशित ओपन-वेट मॉडल है — एक **\~1 ट्रिलियन पैरामीटर मल्टीमॉडल MoE** DeepSeek AI से, NVIDIA के नवीनतम चिप्स पर प्रशिक्षित और Huawei Ascend हार्डवेयर के लिए अनुकूलित। लगभग 32B सक्रिय पैरामीटर प्रति टोकन के साथ, यह कंप्यूट लागत के एक छोटे हिस्से पर अग्रणी प्रदर्शन देता है।

### मुख्य विनिर्देश

| संपत्ति           | मान                                                |
| ----------------- | -------------------------------------------------- |
| कुल पैरामीटर      | \~1 ट्रिलियन (MoE)                                 |
| सक्रिय पैरामीटर   | प्रत्येक फॉरवर्ड पास पर \~32B                      |
| कॉन्टेक्स्ट विंडो | 1M टोकन                                            |
| मॉडलिटी           | टेक्स्ट + इमेज + वीडियो                            |
| लाइसेंस           | उम्मीदित MIT (V3 की तरह)                           |
| बेंचमार्क         | उम्मीद है कि ओपन-सोर्स लीडरबोर्ड पर शीर्ष पर रहेगा |

### क्यों DeepSeek V4?

* **№1 ओपन-वेट मॉडल** — V3 को पार करने और GPT-4.5/Claude Opus के समकक्ष होने के लिए डिज़ाइन किया गया
* **मल्टीमॉडल** — मूल रूप से टेक्स्ट, इमेज और वीडियो इनपुट को संभालता है
* **1M कॉन्टेक्स्ट** — लंबे दस्तावेज़ RAG, पूरे कोडबेस को संदर्भ में रखना
* **MIT लाइसेंस** — वाणिज्यिक उपयोग की अनुमति, कोई प्रतिबंध नहीं
* **विशाल दक्षता** — कुल 1T के बावजूद केवल 32B सक्रिय पैरामीटर

***

## आवश्यकताएँ

| घटक      | न्यूनतम                      | अनुशंसित                 |
| -------- | ---------------------------- | ------------------------ |
| GPU VRAM | Q4 के लिए 2× RTX 4090 (48GB) | FP16 के लिए 4× A100 80GB |
| RAM      | 64GB                         | 128GB                    |
| डिस्क    | 500GB (क्वांटाइज़्ड)         | 2TB (FP16)               |
| CUDA     | 12.4+                        | 12.6+                    |

{% hint style="warning" %}
**बड़े मॉडल की चेतावनी:** DeepSeek V4 को FP16 पर चलाने के लिए कई A100/H100 में \~2TB VRAM की आवश्यकता होती है। व्यावहारिक सिंगल/डुअल-नोड उपयोग के लिए, रिलीज़ के कुछ दिनों के भीतर अपेक्षित GGUF Q4 क्वांटाइज़ेशन का इंतजार करें। Q4\_K\_M \~1T पैरामीटर पर ≈ \~500GB — मल्टी-नोड या 4× RTX 4090 पर 8-बिट क्वांट का उपयोग करें।
{% endhint %}

***

## विकल्प A — Ollama के माध्यम से क्वांटाइज़्ड (सबसे आसान, उपलब्ध होने पर)

Ollama वेट्स के उपलब्ध होते ही घंटों के भीतर DeepSeek V4 मॉडल जोड़ देगा।

```yaml
version: "3.8"
services:
  ollama:
    image: ollama/ollama:latest
    ports:
      - "11434:11434"
    volumes:
      - ollama_data:/root/.ollama
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    environment:
      - OLLAMA_KEEP_ALIVE=24h
      - OLLAMA_MAX_LOADED_MODELS=1

volumes:
  ollama_data:
```

```bash
# DeepSeek V4 खींचें और चलाएं (रिलीज़ होने पर टैग अपडेट करें)
docker exec ollama ollama pull deepseek-v4:32b-q4_K_M
docker exec ollama ollama run deepseek-v4:32b-q4_K_M

# या पूर्ण चैट इंटरफ़ेस के लिए Open WebUI के माध्यम से
docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  ghcr.io/open-webui/open-webui:main
```

***

## विकल्प B — vLLM (प्रोडक्शन API, उच्च थ्रूपुट)

```yaml
version: "3.8"
services:
  vllm:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - hf_cache:/root/.cache/huggingface
    command: >
      --model deepseek-ai/DeepSeek-V4
      --tensor-parallel-size 4
      --max-model-len 32768
      --dtype bfloat16
      --gpu-memory-utilization 0.92
      --served-model-name deepseek-v4
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    shm_size: "16gb"

volumes:
  hf_cache:
```

```bash
# API का परीक्षण करें
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4",
    "messages": [{"role": "user", "content": "Explain quantum entanglement simply"}],
    "max_tokens": 512
  }'
```

***

## विकल्प C — llama.cpp (CPU+GPU, क्वांटाइज़्ड)

```bash
# एक बार जब GGUF फाइलें HuggingFace पर उपलब्ध हों
docker run --gpus all -it --rm \
  -p 8080:8080 \
  -v $(pwd)/models:/models \
  ghcr.io/ggerganov/llama.cpp:server-cuda \
  -m /models/deepseek-v4-q4_k_m.gguf \
  --n-gpu-layers 80 \
  --threads 8 \
  --ctx-size 8192 \
  --port 8080 \
  --host 0.0.0.0
```

***

## Clore.ai पर GPU सिफारिशें

| सेटअप        | VRAM  | अपेक्षित प्रदर्शन                | Clore.ai लागत |
| ------------ | ----- | -------------------------------- | ------------- |
| 2× RTX 4090  | 48GB  | Q4 क्वांटाइज़्ड, \~15 टोक/सेक    | \~$4–5/दिन    |
| 4× RTX 4090  | 96GB  | Q5/Q8 क्वांटाइज़्ड, \~25 टोक/सेक | \~$8–10/दिन   |
| 4× A100 80GB | 320GB | BF16 MoE शार्डिंग, तेज़          | \~$15–20/दिन  |
| 8× H100 80GB | 640GB | पूर्ण FP16, अधिकतम गति           | \~$50+/दिन    |

{% hint style="success" %}
**Clore.ai पर सर्वश्रेष्ठ मूल्य:** Q4 क्वांटाइज़्ड DeepSeek V4 के लिए 2× RTX 4090 किराए पर लें (करीब \~$4/दिन से उपलब्ध)। अपेक्षित 10–20 टोकन्स/सेक — व्यक्तिगत उपयोग और विकास के लिए उपयुक्त।
{% endhint %}

***

## Clore.ai पोर्ट फॉरवर्डिंग

इन्हें अपने Clore.ai कंटेनर पोर्ट कॉन्फ़िगरेशन में जोड़ें:

| पोर्ट | सेवा                         |
| ----- | ---------------------------- |
| 11434 | Ollama API                   |
| 8000  | vLLM OpenAI-अनुकूल API       |
| 8080  | llama.cpp सर्वर / Open WebUI |
| 3000  | Open WebUI चैट इंटरफ़ेस      |

***

## प्रदर्शन सुझाव

1. **सर्वोत्तम गुणवत्ता/VRAM संतुलन के लिए Q4\_K\_M क्वांटाइज़ेशन का उपयोग करें — फिर भी यह अधिकांश 70B मॉडलों से बेहतर है** लॉन्ग कॉन्टेक्स्ट के लिए vLLM में
2. **फ्लैश अटेंशन सक्षम करें**: जोड़ें `--enable-chunked-prefill` लंबे संदर्भों के लिए vLLM में
3. **टेंसर पैरेललिज़्म**: vLLM का `--tensor-parallel-size N` N GPUs पर सहज है
4. **संदर्भ लंबाई**: 2× 4090 पर 8192 ctx से शुरू करें, यदि VRAM अनुमति देता है तो बढ़ाएँ
5. **BF16 > FP16** MoE मॉडलों के लिए — sparse एक्टिवेशन्स पर कम प्रिसिजन लॉस

***

## क्या अपेक्षित है

DeepSeek V3 पैटर्न और प्री-रिलीज़ बेंचमार्क्स के आधार पर:

* **कोडिंग:** SWE-bench पर शीर्ष-स्तरीय अपेक्षित (Claude 3.7 Sonnet से प्रतिस्पर्धी)
* **गणित/तर्क:** MATH-500 और AIME स्कोर सभी ओपन-वेट पूर्ववर्तियों से ऊपर
* **मल्टीमॉडल:** इमेज और वीडियो समझ GPT-4V के तुल्य
* **लॉन्ग कॉन्टेक्स्ट:** पूरे कोडबेस विश्लेषण के लिए 1M टोकन विंडो

***

## लिंक्स

* **HuggingFace:** [huggingface.co/deepseek-ai](https://huggingface.co/deepseek-ai) (वेट्स यहां दिखाई देंगे)
* **GitHub:** [github.com/deepseek-ai](https://github.com/deepseek-ai)
* **DeepSeek V3 गाइड (वर्तमान):** [DeepSeek-V3](https://docs.clore.ai/guides/guides_v2-hi/language-models/deepseek-v3)
* **DeepSeek-R1 गाइड:** [DeepSeek-R1](https://docs.clore.ai/guides/guides_v2-hi/language-models/deepseek-r1)
* **Clore.ai मार्केटप्लेस:** [clore.ai/marketplace](https://clore.ai/marketplace)
