DeepSeek-R1 रीज़निंग मॉडल

Clore.ai GPUs पर DeepSeek-R1 ओपन-सोर्स रीज़निंग मॉडल चलाएँ

circle-check

अवलोकन

DeepSeek-R1 एक 671B-पैरामीटर खुला-वज़न तर्क मॉडल है जो जनवरी 2025 में DeepSeek द्वारा जारी किया गया था Apache 2.0 लाइसेंस के तहत। यह पहला खुला मॉडल है जो गणित, कोडिंग और वैज्ञानिक बेंचमार्क पर OpenAI o1 के बराबर प्रदर्शन करता है — जबकि अपनी पूरी चेन-ऑफ-थॉट को स्पष्ट रूप से उजागर करता है <think> टैग।

पूर्ण मॉडल उपयोग करता है Mixture-of-Experts (MoE) प्रति टोकन 37B सक्रिय पैरामीटर के साथ, जिससे प्रमुख पैरामीटर संख्या के बावजूद इन्फरेंस व्यवहार्य हो जाता है। अधिकांश विशेषज्ञों के लिए, डिस्टिल्ड वेरिएंट (1.5B → 70B) अधिक व्यावहारिक हैं: वे Qwen-2.5 और Llama-3 बेस आर्किटेक्चर में ज्ञान डिस्टिलेशन के माध्यम से R1 के तर्क पैटर्न को विरासत में लेते हैं और कमोडिटी GPUs पर चलते हैं।

प्रमुख विशेषताएँ

  • स्पष्ट चेन-ऑफ-थॉट — हर प्रतिक्रिया एक से शुरू होती है <think> ब्लॉक जहां मॉडल अंतिम उत्तर देने से पहले तर्क करता है, वापस जाता है, और स्वयं-सुधार करता है

  • रिइनफोर्समेंट-लर्निंग प्रशिक्षित — तर्क क्षमता RL पुरस्कार संकेतों से उत्पन्न होती है न कि हाथ-लिखित चेन-ऑफ-थॉट डेटा से

  • छह डिस्टिल्ड वेरिएंट — 1.5B, 7B, 8B, 14B, 32B, 70B पैरामीटर मॉडल जो पूर्ण 671B से Qwen और Llama आर्किटेक्चर में डिस्टिल किए गए हैं

  • Apache 2.0 लाइसेंस — पूरी तरह से वाणिज्यिक, कोई रॉयल्टी नहीं, कोई उपयोग प्रतिबंध नहीं

  • व्यापक फ्रेमवर्क समर्थन — Ollama, vLLM, llama.cpp, SGLang, Transformers, TGI सभी बॉक्स से बाहर काम करते हैं

  • AIME 2024 Pass@1: 79.8% — प्रतियोगिता गणित पर OpenAI o1 के साथ बराबरी करता है

  • Codeforces 2029 Elo — प्रतियोगी प्रोग्रामिंग में o1 के 1891 से अधिक

मॉडल वेरिएंट

वेरिएंट
पैरामीटर
आर्किटेक्चर
FP16 VRAM
Q4 VRAM
Q4 डिस्क

DeepSeek-R1 (पूर्ण MoE)

671B (37B सक्रिय)

DeepSeek MoE

~1.3 TB

~350 GB

~340 GB

R1-Distill-Llama-70B

70B

Llama 3

140 GB

40 GB

42 GB

R1-Distill-Qwen-32B

32B

Qwen 2.5

64 GB

22 GB

20 GB

R1-Distill-Qwen-14B

14B

Qwen 2.5

28 GB

10 GB

9 GB

R1-Distill-Llama-8B

8B

Llama 3

16 GB

6 GB

5.5 GB

R1-Distill-Qwen-7B

7B

Qwen 2.5

14 GB

5 GB

4.5 GB

R1-Distill-Qwen-1.5B

1.5B

Qwen 2.5

3 GB

2 GB

1.2 GB

वेरिएंट चुनना

उपयोग का मामला
अनुशंसित वेरिएंट
Clore पर GPU

त्वरित प्रयोग, एज परीक्षण

R1-Distill-Qwen-1.5B

कोई भी GPU

बजट तैनाती, तेज़ इन्फरेंस

R1-Distill-Qwen-7B

RTX 3090 (~$0.30–1/दिन)

सिंगल-GPU प्रोडक्शन का स्विट स्पॉट

R1-Distill-Qwen-14B Q4

RTX 4090 (~$0.50–2/दिन)

सबसे अच्छा गुणवत्ता-प्रति-डॉलर (अनुशंसित)

R1-Distill-Qwen-32B Q4

RTX 4090 24 GB या A100 40 GB

अधिकतम डिस्टिल्ड गुणवत्ता

R1-Distill-Llama-70B

2× A100 80 GB

अनुसंधान, पूर्ण-फिडेलिटी तर्क

DeepSeek-R1 671B

8× H100 क्लस्टर

HuggingFace रिपॉज़िटरीज़

वेरिएंट
रिपॉज़िटरी

आवश्यकताएँ

घटक
न्यूनतम (7B Q4)
अनुशंसित (32B Q4)

GPU VRAM

6 GB

24 GB

सिस्टम RAM

16 GB

32 GB

डिस्क

10 GB

30 GB

CUDA

12.1+

12.4+

Docker

24.0+

25.0+

Ollama त्वरित प्रारंभ

Ollama स्वतः क्वांटाइज़ेशन, डाउनलोड और सर्विंग को संभालता है — चलने वाले DeepSeek-R1 तक पहुँचने का सबसे तेज़ मार्ग।

इंस्टॉल और चलाएँ

उदाहरण इंटरैक्टिव सत्र

OpenAI-अनुकूल API का उपयोग करें

Python क्लाइंट (OpenAI SDK के माध्यम से)

vLLM प्रोडक्शन सेटअप

vLLM बहु-उपयोगकर्ता सर्विंग के लिए निरंतर बैचिंग, PagedAttention, और प्रिफिक्स कैशिंग के साथ उच्चतम थ्रूपुट देता है।

सिंगल GPU — 7B / 14B

मल्टी-GPU — 32B (अनुशंसित)

संकेत: 32B Q4 GPTQ या AWQ चेकपॉइंट एक एकल RTX 4090 (24 GB) पर फिट होता है:

मल्टी-GPU — 70B

vLLM एंडपॉइंट को क्वेरी करें

Transformers / Python (के साथ <think> टैग पार्सिंग)

जब आपको जेनरेशन पर सूक्ष्म-नियंत्रण चाहिए या R1 को Python पाइपलाइन में एकीकृत करना हो तो HuggingFace Transformers का उपयोग करें।

बेसिक जेनरेशन

पार्सिंग <think> टैग

स्ट्रीमिंग के साथ <think> स्थिति ट्रैकिंग

Clore.ai पर Docker तैनाती

Ollama Docker (सबसे सरल)

Docker इमेज: ollama/ollama पोर्ट: 22/tcp, 11434/http

vLLM Docker (प्रोडक्शन)

Docker इमेज: vllm/vllm-openai:latest पोर्ट: 22/tcp, 8000/http

Clore.ai पर तैनात करें:

  1. फ़िल्टर करें 2× GPU, कुल 48 GB+ VRAM (उदा. 2× RTX 4090 या A100 80 GB)

  2. Docker इमेज को सेट करें vllm/vllm-openai:latest

  3. पोर्ट मैप करें 8000 को HTTP के रूप में

  4. ऊपर compose फ़ाइल से कमांड को स्टार्टअप कमांड में पेस्ट करें

  5. स्वास्थ्य जांच पास होने के बाद HTTP एंडपॉइंट के माध्यम से कनेक्ट करें

Clore.ai तैनातियों के लिए टिप्स

सही GPU चुनना

बजट
GPU
दैनिक लागत
सर्वोत्तम वेरिएंट

न्यूनतम

RTX 3090 (24 GB)

$0.30 – 1.00

R1-Distill-Qwen-7B या 14B Q4

मानक

RTX 4090 (24 GB)

$0.50 – 2.00

R1-Distill-Qwen-14B FP16 या 32B Q4

उत्पादन

A100 80 GB

$3 – 8

R1-Distill-Qwen-32B FP16

उच्च गुणवत्ता

2× A100 80 GB

$6 – 16

R1-Distill-Llama-70B FP16

प्रदर्शन ट्यूनिंग

  • टेेम्परेचर 0.6 तर्क कार्यों के लिए अनुशंसित डिफ़ॉल्ट है — DeepSeek के अपने पेपर्स इस मान का उपयोग करते हैं

  • सेट करें max_tokens उदारतापूर्वक — तर्क मॉडल लंबे उत्पन्न करते हैं <think> ब्लॉक्स; गैर-त्रिवेणी समस्याओं के लिए 4096+

  • प्रिफिक्स कैशिंग सक्षम करें (--enable-prefix-caching जब साझा सिस्टम प्रॉम्प्ट का उपयोग कर रहे हों तो vLLM में)

  • समानांतरता सीमित करें (--max-num-seqs 16) तर्क कार्यभार के लिए — हर अनुरोध मानक चैट की तुलना में अधिक कंप्यूट उपयोग करता है

  • Q4 क्वांटाइज़ेशन का उपयोग करें एकल 24 GB GPU पर न्यूनतम गुणवत्ता हानि के साथ 32B फिट करने के लिए (डिस्टिल पहले ही R1 के ज्ञान को संपीड़ित कर देता है)

संदर्भ लंबाई विचार

तर्क मॉडल मानक चैट मॉडलों की तुलना में अधिक संदर्भ का उपभोग करते हैं क्योंकि <think> ब्लॉक:

कार्य जटिलता
सामान्य सोचने की लंबाई
कुल संदर्भ आवश्यकता

सरल अंकगणित

~100 टोकन

~300 टोकन

कोड जनरेशन

~500–1000 टोकन

~2000 टोकन

प्रतियोगिता गणित (AIME)

~2000–4000 टोकन

~5000 टोकन

बहु-चरण अनुसंधान विश्लेषण

~4000–8000 टोकन

~10000 टोकन

समस्याओं का निवारण

मेमोरी से बाहर (OOM)

मॉडल कोई भी उत्पन्न नहीं करता <think> ब्लॉक

कुछ सिस्टम प्रॉम्प्ट सोच को दबा देते हैं। "संक्षेप में रहें" या "अपना तर्क न समझाएँ" जैसी निर्देशों से बचें। एक न्यूनतम सिस्टम प्रॉम्प्ट का उपयोग करें या बिलकुल न रखें:

दोहरावदार या लूपिंग <think> आउटपुट

तर्क श्रृंखला में यादृच्छिकता घटाने के लिए टेम्परेचर कम करें:

पहला टोकन धीमा (उच्च TTFT)

यह अपेक्षित है — मॉडल दृश्यमान उत्तर से पहले <think> टोकन उत्पन्न करता है। जहाँ विलंबता-संवेदनशील एप्लिकेशन में तर्क की आवश्यकता नहीं हो, वहाँ DeepSeek-V3 का उपयोग करें।

Clore इंस्टेंस पर डाउनलोड रुकता है

कुछ प्रदाताओं पर HuggingFace डाउनलोड धीमे हो सकते हैं। मॉडल को एक स्थायी वॉल्यूम में पहले से कैश करें:

अधिक पढ़ने के लिए

  • DeepSeek-R1 पेपरarrow-up-rightIncentivizing Reasoning Capability in LLMs via Reinforcement Learning

  • DeepSeek-R1 GitHubarrow-up-right — माडल कार्ड्स के साथ आधिकारिक रिपॉज़िटरी

  • DeepSeek-V3 गाइड — उसी लैब का गैर-तर्क-संबंधी सामान्य-उद्देश्य मॉडल

  • vLLM गाइड — व्यापक प्रोडक्शन सर्विंग सेटअप

  • Ollama गाइड — किसी भी मॉडल के लिए सरल स्थानीय तैनाती

  • Open WebUI गाइड — नेटिव के साथ चैट UI <think> टैग रेंडरिंग

  • Qwen 2.5 गाइड — अधिकांश R1 डिस्टिल्स द्वारा उपयोग की जाने वाली बेस आर्किटेक्चर

Last updated

Was this helpful?