DeepSeek V4 (1T MoE, मल्टीमोडल)

DeepSeek V4 — ट्रिलियन-पैरामीटर मल्टीमोडल ओपन-वेट मॉडल — को Clore.ai GPU सर्वरों पर तैनात करें

circle-info

स्थिति (4 मार्च, 2026): DeepSeek V4 रिलीज निकट है — उम्मीद है मार्च 2026 के पहले सप्ताह में। यह गाइड vLLM/Ollama का उपयोग करके सेटअप को कवर करता है जब वेट्स HuggingFace पर उपलब्ध होंगे। जांचें huggingface.co/deepseek-aiarrow-up-right के लिए नवीनतम रिलीज।

DeepSeek V4 प्रारंभिक 2026 का सबसे प्रत्याशित ओपन-वेट मॉडल है — एक ~1 ट्रिलियन पैरामीटर मल्टीमॉडल MoE DeepSeek AI से, NVIDIA के नवीनतम चिप्स पर प्रशिक्षित और Huawei Ascend हार्डवेयर के लिए अनुकूलित। लगभग 32B सक्रिय पैरामीटर प्रति टोकन के साथ, यह कंप्यूट लागत के एक छोटे हिस्से पर अग्रणी प्रदर्शन देता है।

मुख्य विनिर्देश

संपत्ति
मान

कुल पैरामीटर

~1 ट्रिलियन (MoE)

सक्रिय पैरामीटर

प्रत्येक फॉरवर्ड पास पर ~32B

कॉन्टेक्स्ट विंडो

1M टोकन

मॉडलिटी

टेक्स्ट + इमेज + वीडियो

लाइसेंस

उम्मीदित MIT (V3 की तरह)

बेंचमार्क

उम्मीद है कि ओपन-सोर्स लीडरबोर्ड पर शीर्ष पर रहेगा

क्यों DeepSeek V4?

  • №1 ओपन-वेट मॉडल — V3 को पार करने और GPT-4.5/Claude Opus के समकक्ष होने के लिए डिज़ाइन किया गया

  • मल्टीमॉडल — मूल रूप से टेक्स्ट, इमेज और वीडियो इनपुट को संभालता है

  • 1M कॉन्टेक्स्ट — लंबे दस्तावेज़ RAG, पूरे कोडबेस को संदर्भ में रखना

  • MIT लाइसेंस — वाणिज्यिक उपयोग की अनुमति, कोई प्रतिबंध नहीं

  • विशाल दक्षता — कुल 1T के बावजूद केवल 32B सक्रिय पैरामीटर


आवश्यकताएँ

घटक
न्यूनतम
अनुशंसित

GPU VRAM

Q4 के लिए 2× RTX 4090 (48GB)

FP16 के लिए 4× A100 80GB

RAM

64GB

128GB

डिस्क

500GB (क्वांटाइज़्ड)

2TB (FP16)

CUDA

12.4+

12.6+

circle-exclamation

विकल्प A — Ollama के माध्यम से क्वांटाइज़्ड (सबसे आसान, उपलब्ध होने पर)

Ollama वेट्स के उपलब्ध होते ही घंटों के भीतर DeepSeek V4 मॉडल जोड़ देगा।


विकल्प B — vLLM (प्रोडक्शन API, उच्च थ्रूपुट)


विकल्प C — llama.cpp (CPU+GPU, क्वांटाइज़्ड)


Clore.ai पर GPU सिफारिशें

सेटअप
VRAM
अपेक्षित प्रदर्शन
Clore.ai लागत

2× RTX 4090

48GB

Q4 क्वांटाइज़्ड, ~15 टोक/सेक

~$4–5/दिन

4× RTX 4090

96GB

Q5/Q8 क्वांटाइज़्ड, ~25 टोक/सेक

~$8–10/दिन

4× A100 80GB

320GB

BF16 MoE शार्डिंग, तेज़

~$15–20/दिन

8× H100 80GB

640GB

पूर्ण FP16, अधिकतम गति

~$50+/दिन

circle-check

Clore.ai पोर्ट फॉरवर्डिंग

इन्हें अपने Clore.ai कंटेनर पोर्ट कॉन्फ़िगरेशन में जोड़ें:

पोर्ट
सेवा

11434

Ollama API

8000

vLLM OpenAI-अनुकूल API

8080

llama.cpp सर्वर / Open WebUI

3000

Open WebUI चैट इंटरफ़ेस


प्रदर्शन सुझाव

  1. सर्वोत्तम गुणवत्ता/VRAM संतुलन के लिए Q4_K_M क्वांटाइज़ेशन का उपयोग करें — फिर भी यह अधिकांश 70B मॉडलों से बेहतर है लॉन्ग कॉन्टेक्स्ट के लिए vLLM में

  2. फ्लैश अटेंशन सक्षम करें: जोड़ें --enable-chunked-prefill लंबे संदर्भों के लिए vLLM में

  3. टेंसर पैरेललिज़्म: vLLM का --tensor-parallel-size N N GPUs पर सहज है

  4. संदर्भ लंबाई: 2× 4090 पर 8192 ctx से शुरू करें, यदि VRAM अनुमति देता है तो बढ़ाएँ

  5. BF16 > FP16 MoE मॉडलों के लिए — sparse एक्टिवेशन्स पर कम प्रिसिजन लॉस


क्या अपेक्षित है

DeepSeek V3 पैटर्न और प्री-रिलीज़ बेंचमार्क्स के आधार पर:

  • कोडिंग: SWE-bench पर शीर्ष-स्तरीय अपेक्षित (Claude 3.7 Sonnet से प्रतिस्पर्धी)

  • गणित/तर्क: MATH-500 और AIME स्कोर सभी ओपन-वेट पूर्ववर्तियों से ऊपर

  • मल्टीमॉडल: इमेज और वीडियो समझ GPT-4V के तुल्य

  • लॉन्ग कॉन्टेक्स्ट: पूरे कोडबेस विश्लेषण के लिए 1M टोकन विंडो


लिंक्स

Last updated

Was this helpful?