# DeepSeek V4 (1.6T MoE, मल्टीमोडल)

{% hint style="info" %}
**स्थिति (29 अप्रैल, 2026):** DeepSeek V4 जारी किया गया **22 अप्रैल, 2026** के साथ **MIT लाइसेंस के तहत पूर्ण ओपन वेट्स**। दो चेकपॉइंट उपलब्ध हैं: [deepseek-ai/DeepSeek-V4-Pro](https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro) (कुल 1.6T / \~49B सक्रिय, 1M संदर्भ) और [deepseek-ai/DeepSeek-V4-Flash](https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash) (कुल 284B / \~13B सक्रिय)। Pro मॉडल पहले ही अपने पहले सप्ताह में **174K डाउनलोड**पार कर चुका है, vLLM और SGLang में पहले दिन से समर्थन के साथ।
{% endhint %}

DeepSeek V4 2026 का पहला ओपन-वेट फ्रंटियर मॉडल है जिसे एक **दो-स्तरीय रिलीज**. **V4-Pro** मुख्य फ्लैगशिप है — एक **1.6 ट्रिलियन पैरामीटर Mixture-of-Experts** लगभग **49B सक्रिय पैरामीटर प्रति टोकन**के साथ, एक **1M टोकन संदर्भ विंडो**और एक हाइब्रिड अटेंशन डिज़ाइन, जो Compressed Sparse Attention को एक नए Heavily Compressed Attention हेड के साथ जोड़ता है ताकि लंबे संदर्भ के prefill को सस्ता बनाया जा सके। **V4-Flash** व्यावहारिक साथी है — **284B कुल / 13B सक्रिय**, वही आर्किटेक्चर, क्वांटाइज़ किए जाने पर एकल 80GB GPU पर फिट हो जाता है, और Unsloth GGUF बिल्ड्स के साथ 2×48GB बॉक्स पर आराम से चलता है।

आर्किटेक्चर ही मुख्य आकर्षण है। DeepSeek की हाइब्रिड अटेंशन लंबे संदर्भ पर KV-cache मेमोरी को बहुत कम कर देती है, और MoE राउटर को अधिक सटीक एक्सपर्ट चयन के लिए फिर से प्रशिक्षित किया गया है — शुरुआती स्वतंत्र रन बताते हैं कि Pro लगभग आधे सक्रिय-पैरामीटर कंप्यूट पर V3-स्तर के कोडिंग स्कोर हासिल करता है। Clore.ai उपयोगकर्ताओं के लिए यह महत्वपूर्ण है क्योंकि **V4-Flash पहली बार है जब 15B-सक्रिय से कम वाला फ्रंटियर-श्रेणी मॉडल पूर्ण वेट्स के साथ जारी किया गया है**जिससे गंभीर ओपन इन्फ़रेंस एकल H100 या सस्ते मल्टी-4090 बॉक्स की पहुंच में आ जाता है।

अधिकांश टीमों के लिए वास्तविक Clore डिप्लॉयमेंट है **V4-Flash on 1× A100 80GB या 2× RTX 4090** — यहीं पर कीमत-प्रदर्शन सबसे अच्छा है। V4-Pro गंभीर इंफ्रास्ट्रक्चर के लिए है: 8× H100, 4× H200, या 8× B200, आदर्श रूप से NVLink के साथ। यदि आप [DeepSeek V3](/guides/guides_v2-hi/language-models/deepseek-v3.md) या [DeepSeek-R1](/guides/guides_v2-hi/language-models/deepseek-r1.md)चलाते रहे हैं, तो माइग्रेशन पथ सीधा है — वही मॉडल परिवार, वही चैट टेम्पलेट, vLLM पर ड्रॉप-इन विकल्प।

### मुख्य विनिर्देश

| विशेषता           | DeepSeek V4-Pro                                                                   | DeepSeek V4-Flash                                                                     |
| ----------------- | --------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------- |
| कुल पैरामीटर      | 1.6T (MoE)                                                                        | 284B (MoE)                                                                            |
| सक्रिय पैरामीटर   | \~49B प्रति टोकन                                                                  | \~13B प्रति टोकन                                                                      |
| कॉन्टेक्स्ट विंडो | 1,000,000 टोकन                                                                    | 256,000 टोकन                                                                          |
| अटेंशन            | Compressed Sparse + Heavily Compressed Attention                                  | Compressed Sparse + HCA                                                               |
| लाइसेंस           | MIT                                                                               | MIT                                                                                   |
| रिलीज़ तिथि       | 22 अप्रैल, 2026                                                                   | 22 अप्रैल, 2026                                                                       |
| HuggingFace       | [deepseek-ai/DeepSeek-V4-Pro](https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro) | [deepseek-ai/DeepSeek-V4-Flash](https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash) |
| प्राथमिक टूलिंग   | vLLM, SGLang (day-0)                                                              | vLLM, SGLang, llama.cpp (Unsloth GGUF)                                                |

### DeepSeek V4 क्यों?

* **वास्तव में ओपन फ्रंटियर वेट्स** — MIT लाइसेंस, उपयोग की कोई पाबंदी नहीं, पूर्ण व्यावसायिक उपयोग
* **Pro पर 1M संदर्भ, Flash पर 256K** — पूरे कोडबेस, किताबें, या घंटे भर के ट्रांसक्रिप्ट को एक ही पास में संभालता है
* **हाइब्रिड स्पार्स अटेंशन** — लंबी संदर्भ लंबाई पर KV cache उप-रेखीय रूप से बढ़ता है, prefill सस्ता है
* **दो-स्तरीय रिलीज** — Flash पहला 13B-सक्रिय MoE है जो अधिकांश वर्कफ़्लोज़ में V3 को बदलने के लिए पर्याप्त अच्छा है
* **पहले दिन से vLLM और SGLang समर्थन** — कम्युनिटी पैच का इंतज़ार नहीं, बस `pip install -U` और शुरू करें
* **MoE दक्षता** — आप 13B/49B इन्फ़रेंस लागत चुकाते हैं, 284B/1.6T नहीं

***

## आवश्यकताएँ

{% hint style="warning" %}
**V4-Pro एक फ्रंटियर मॉडल है।** पूर्ण BF16 वेट्स लगभग 3.2TB हैं और मल्टी-नोड H100/H200 या 8× B200 NVLink की आवश्यकता होती है। कोई एकल-सर्वर BF16 पथ नहीं है। यदि आपके पास मल्टी-नोड इंफ्रास्ट्रक्चर नहीं है, तो V4-Flash चलाएँ — यह गुणवत्ता का 80% है, हार्डवेयर लागत का 5%।
{% endhint %}

| घटक      | न्यूनतम (V4-Flash, GGUF Q4) | अनुशंसित (V4-Flash FP8)      | पूर्ण V4-Pro (BF16)                |
| -------- | --------------------------- | ---------------------------- | ---------------------------------- |
| GPU VRAM | 1× 80GB या 2× 48GB          | 1× H100 80GB या 1× A100 80GB | 8× H100 80GB या 4× H200 141GB      |
| RAM      | 64GB                        | 128GB                        | 1TB+                               |
| डिस्क    | 200GB NVMe                  | 600GB NVMe                   | 4TB NVMe                           |
| CUDA     | 12.4+                       | 12.6+                        | 12.6+                              |
| नेटवर्क  | —                           | —                            | NVLink / मल्टी-नोड के लिए 400Gb IB |

**Clore.ai की पसंद:** 95% उपयोगकर्ताओं के लिए, **एकल A100 80GB पर FP8 में V4-Flash** सबसे अच्छा विकल्प है — पूरा 256K संदर्भ, कोई क्वांटाइज़ेशन नुकसान नहीं, मार्केटप्लेस पर लगभग \~$5–7/दिन। [H100](https://clore.ai/rent-h100.html) या [H200](https://clore.ai/rent-h200.html) tensor-parallel सेटअप तभी चुनें जब आपको सचमुच V4-Pro 1M संदर्भ या अतिरिक्त reasoning headroom की ज़रूरत हो।

***

## विकल्प A — Ollama / GGUF (Quantized, केवल V4-Flash)

Unsloth ने रिलीज़ के 48 घंटे के भीतर V4-Flash के लिए GGUF क्वांट्स प्रकाशित किए। Q4\_K\_M सबसे अच्छा संतुलन है — 1× 80GB या 2× 48GB पर फिट होता है और गुणवत्ता को FP8 के करीब रखता है।

```bash
# Unsloth Q4_K_M बिल्ड खींचें
docker exec ollama ollama pull hf.co/unsloth/DeepSeek-V4-Flash-GGUF:Q4_K_M
docker exec ollama ollama run hf.co/unsloth/DeepSeek-V4-Flash-GGUF:Q4_K_M

# या डाउनलोड किए गए GGUF पर सीधे llama.cpp के साथ
docker run --gpus all -it --rm -p 8080:8080 \
  -v $(pwd)/models:/models \
  ghcr.io/ggerganov/llama.cpp:server-cuda \
  -m /models/DeepSeek-V4-Flash-Q4_K_M.gguf \\
  --n-gpu-layers 99 --ctx-size 65536 \
  --port 8080 --host 0.0.0.0
```

{% hint style="info" %}
V4- के लिए GGUF क्वांट्स**Pro** मौजूद हैं लेकिन व्यावहारिक नहीं हैं — Q2\_K भी लगभग 400GB है और ऑफ़लोड प्रदर्शन चैट के लिए अनुपयोगी है। क्वांटाइज़्ड डिप्लॉयमेंट के लिए Flash पर ही टिकें।
{% endhint %}

***

## विकल्प B — vLLM (प्रोडक्शन API, अनुशंसित)

vLLM 0.7.x ने दोनों V4 चेकपॉइंट्स के लिए day-0 सपोर्ट जोड़ा है। हाइब्रिड अटेंशन कर्नेल्स को `--trust-remote-code` और पूर्ण गति के लिए Hopper या Blackwell हार्डवेयर की आवश्यकता होती है।

**एकल H100 / A100 80GB पर V4-Flash:**

```yaml
version: "3.8"
services:
  vllm:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - hf_cache:/root/.cache/huggingface
    command: >
      --model deepseek-ai/DeepSeek-V4-Flash
      --tensor-parallel-size 1
      --max-model-len 131072
      --dtype bfloat16
      --gpu-memory-utilization 0.92
      --enable-chunked-prefill
      --served-model-name deepseek-v4-flash
      --trust-remote-code
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    shm_size: "16gb"

volumes:
  hf_cache:
```

**8× H100 80GB पर V4-Pro:** कमांड को इस पर बदलें:

```yaml
    command: >
      --model deepseek-ai/DeepSeek-V4-Pro
      --tensor-parallel-size 8
      --max-model-len 262144
      --dtype bfloat16
      --gpu-memory-utilization 0.90
      --enable-chunked-prefill
      --enable-prefix-caching
      --served-model-name deepseek-v4-pro
      --trust-remote-code
```

```bash
# API का परीक्षण करें
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4-flash",
    "messages": [{"role": "user", "content": "Write a Rust async TCP echo server with graceful shutdown."}],
    "max_tokens": 2048,
    "temperature": 0.6
  }'
```

{% hint style="info" %}
इससे शुरू करें `--max-model-len 131072` भले ही अंततः आप पूरा 1M ctx चाहते हों — लंबे संदर्भ prefill समय और KV मेमोरी को बहुत बढ़ा देते हैं। आधार स्थिर होने के बाद ही इसे बढ़ाएँ।
{% endhint %}

***

## विकल्प C — SGLang (वैकल्पिक, अक्सर Hopper पर तेज़)

SGLang का RadixAttention और prefix caching, V4 की हाइब्रिड अटेंशन के साथ अच्छी तरह मेल खाते हैं — साझा प्रॉम्प्ट वाले agentic वर्कलोड्स के लिए vLLM की तुलना में उल्लेखनीय रूप से बेहतर tok/s की उम्मीद करें।

```bash
docker pull lmsysorg/sglang:latest

# 1× H100/A100 पर V4-Flash
python3 -m sglang.launch_server \\
  --model-path deepseek-ai/DeepSeek-V4-Flash \\
  --tp-size 1 \\
  --context-length 131072 \\
  --mem-fraction-static 0.90 \\
  --enable-torch-compile \\
  --served-model-name deepseek-v4-flash \\
  --trust-remote-code

# 8× H100 पर V4-Pro
python3 -m sglang.launch_server \\
  --model-path deepseek-ai/DeepSeek-V4-Pro \\
  --tp-size 8 \\
  --context-length 262144 \\
  --mem-fraction-static 0.88 \\
  --enable-torch-compile \\
  --served-model-name deepseek-v4-pro \\
  --trust-remote-code
```

SGLang का `--enable-torch-compile` आमतौर पर प्रारंभिक वार्मअप के बाद Hopper पर 10–20% अतिरिक्त throughput जोड़ता है।

***

## Clore.ai GPU अनुशंसाएँ

| सेटअप                                                      | मॉडल                                          | VRAM       | अपेक्षित थ्रूपुट                    | Clore.ai लागत    |
| ---------------------------------------------------------- | --------------------------------------------- | ---------- | ----------------------------------- | ---------------- |
| 2× [RTX 4090](https://clore.ai/rent-4090.html) (Q4 GGUF)   | V4-Flash                                      | 48GB       | शौकिया उपयोग, एकल-स्ट्रीम           | \~$2–3/दिन       |
| 1× [A100 80GB](https://clore.ai/rent-a100-80gb.html) (FP8) | V4-Flash                                      | 80GB       | मज़बूत प्रोडक्शन एकल-टेनेंट         | \~$5–7/दिन       |
| 1× RTX 5090 32GB (Q4 GGUF, आंशिक ऑफ़लोड)                   | V4-Flash                                      | 32GB + RAM | सीमित, केवल dev के लिए              | \~$3.94/घंटा पीक |
| 4× [H100 80GB](https://clore.ai/rent-h100.html)            | V4-Flash FP8 (ज़रूरत से ज़्यादा) या V4-Pro Q4 | 320GB      | मल्टी-टेनेंट Flash, एकल-स्ट्रीम Pro | \~$24–32/दिन     |
| 8× [H100 80GB](https://clore.ai/rent-h100.html)            | V4-Pro BF16                                   | 640GB      | प्रोडक्शन फ्रंटियर इन्फ़रेंस        | \~$48–64/दिन     |
| 4× [H200 141GB](https://clore.ai/rent-h200.html)           | V4-Pro BF16 + 1M ctx                          | 564GB      | पूरा 1M संदर्भ, अधिकतम throughput   | \~$32–48/दिन     |

{% hint style="success" %}
**Clore.ai पर सबसे अच्छा मूल्य:** 1× A100 80GB पर V4-Flash FP8 चलाएँ। आपको 256K संदर्भ, \~13B सक्रिय इन्फ़रेंस लागत, कोई क्वांटाइज़ेशन नुकसान नहीं, और बिल लगभग Claude Sonnet API सब्सक्रिप्शन की कीमत के बराबर मिलेगा — जबकि वेट्स आपके बॉक्स पर ही रहेंगे।
{% endhint %}

***

## उपयोग के मामले

* **पूरे कोडबेस पर reasoning** — V4-Pro का 1M संदर्भ एक सामान्य 500K-LOC monorepo और उसके tests को एक ही प्रॉम्प्ट में समेट लेता है
* **लंबे-रूप RAG** — पूरी किताबें, कानूनी फाइलिंग्स, या वार्षिक रिपोर्ट्स संदर्भ में डालें, chunking pipeline को छोड़ दें
* **Agentic coding** — V4-Flash, inference लागत के एक छोटे हिस्से पर SWE-Bench में V3 के बराबर है; इसे SWE-agent या OpenHands के साथ जोड़ें
* **कई दस्तावेज़ों का synthesis** — शोध वर्कफ़्लोज़ जिन्हें पहले Gemini 2.5 Pro चाहिए था, अब आपके अपने हार्डवेयर पर चलते हैं
* **स्व-होस्टेड Cursor / Copilot विकल्प** — एकल A100 पर V4-Flash 5-डेवलपर टीम की मांग पूरी कर देता है
* **फाइन-ट्यूनिंग बेस** — MIT लाइसेंस + साफ़ MoE आर्किटेक्चर इसे डोमेन फाइन-ट्यून के लिए मज़बूत शुरुआती बिंदु बनाता है

***

## बेंचमार्क

{% hint style="warning" %}
**विक्रेता द्वारा दावा किया गया — स्वतंत्र रूप से सत्यापित करें।** नीचे दिए गए आँकड़े DeepSeek की 22 अप्रैल, 2026 की घोषणा और model card से लिए गए हैं। स्वतंत्र पुनरुत्पादन अभी भी प्रकाशित हो रहे हैं; इन्हें दिशा-सूचक मानें, अंतिम सत्य नहीं।
{% endhint %}

| बेंचमार्क                           | V4-Pro | V4-Flash  | DeepSeek V3 | GLM-5.1   |
| ----------------------------------- | ------ | --------- | ----------- | --------- |
| MMLU-Pro                            | \~84%  | \~78%     | \~76%       | \~80%     |
| SWE-Bench Verified                  | \~82%  | \~74%     | \~70%       | \~79%     |
| HumanEval                           | \~96%  | \~92%     | \~91%       | \~94%     |
| MATH-500                            | \~94%  | \~88%     | \~85%       | \~90%     |
| LiveCodeBench                       | \~76%  | \~68%     | \~62%       | \~72%     |
| लंबा-संदर्भ (1M needle-in-haystack) | \~98%  | लागू नहीं | लागू नहीं   | लागू नहीं |

एक समान ओपन-वेट तुलना के लिए देखें [GLM-5.1 गाइड](/guides/guides_v2-hi/language-models/glm-5-1.md) — बेंचमार्क के आधार पर V4-Pro और GLM-5.1 की टक्कर होती है।

***

## समस्या-निवारण

| समस्या                                       | समाधान                                                                                                                                                                                        |
| -------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| `OutOfMemoryError` 8×H100 पर V4-Pro लोड करना | BF16 के लिए लगभग 3.2TB चाहिए — आप Pro को एकल 8×H100 नोड में फिट नहीं कर सकते। 4× H200 141GB या multi-node का उपयोग करें।                                                                      |
| `असमर्थित attention backend`                 | V4 के लिए vLLM ≥ 0.7.0 या SGLang ≥ 0.4.4 चाहिए। चलाएँ `pip install -U vllm` (या pull करें `:latest` Docker image).                                                                            |
| धीमी HuggingFace डाउनलोड                     | उपयोग करें `huggingface-cli download deepseek-ai/DeepSeek-V4-Flash --local-dir ./weights --resume-download`. Pro लगभग 3.2TB है; Flash लगभग 570GB है।                                          |
| `--trust-remote-code` अस्वीकृत               | हाइब्रिड attention मॉड्यूल repo में custom code के रूप में आते हैं — `--trust-remote-code` दोनों engines के लिए यह आवश्यक है जब तक kernels upstream Transformers में नहीं आ जाते।             |
| GGUF Q4 आउटपुट अस्पष्ट बकवास देता है         | सुनिश्चित करें कि आप Unsloth build पर हैं (`unsloth/DeepSeek-V4-Flash-GGUF`), किसी शुरुआती कम्युनिटी क्वांट पर नहीं। MoE राउटर को विशेष हैंडलिंग चाहिए थी, जिसे शुरुआती क्वांट्स ने गलत किया। |
| V4-Pro पर 1M संदर्भ OOM                      | इसे घटाकर `--max-model-len 262144` करें और `--enable-prefix-caching`जोड़ें। वास्तविक 1M सर्विंग के लिए H200 या B200 चाहिए।                                                                    |
| लंबे संदर्भ पर धीमा prefill                  | यह अपेक्षित है — हाइब्रिड अटेंशन के साथ भी 500K+ prefill मिनटों में होता है, सेकंडों में नहीं। `--enable-chunked-prefill` और prefix caching का उपयोग करके इसे amortize करें।                  |

***

## अगले कदम

* **पूर्ववर्ती:** [DeepSeek V3](/guides/guides_v2-hi/language-models/deepseek-v3.md) — वह मॉडल जिसे V4-Flash प्रभावी रूप से बदल देता है
* **तर्कशील साथी:** [DeepSeek-R1](/guides/guides_v2-hi/language-models/deepseek-r1.md) — chain-of-thought के लिए ट्यून किया गया, फिर भी गणित-प्रधान वर्कफ़्लोज़ के लिए उपयोगी
* **ओपन-वेट विकल्प:** [GLM-5.1](/guides/guides_v2-hi/language-models/glm-5-1.md) — 744B MoE, SWE-Bench Pro में शीर्ष, तुलनीय कीमत-प्रदर्शन
* **मल्टीमोडल विकल्प:** [Qwen3.5-Omni](/guides/guides_v2-hi/language-models/qwen35-omni.md) — यदि आपको एक ही मॉडल में vision/audio चाहिए
* **हार्डवेयर किराए पर लें:** [Clore.ai Marketplace](https://clore.ai/marketplace) — H100/H200/A100/RTX 4090 $0.50/दिन से

### लिंक्स

* [HuggingFace पर DeepSeek-V4-Pro](https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro)
* [HuggingFace पर DeepSeek-V4-Flash](https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash)
* [Unsloth V4-Flash GGUF क्वांट्स](https://huggingface.co/unsloth/DeepSeek-V4-Flash-GGUF)
* [DeepSeek GitHub](https://github.com/deepseek-ai)
* [vLLM docs](https://docs.vllm.ai)
* [SGLang repo](https://github.com/sgl-project/sglang)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-hi/language-models/deepseek-v4.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
