vLLM

Clore.ai GPUs पर vLLM के साथ उच्च-थ्रूपुट LLM इनफरेंस

CLORE.AI GPUs पर उत्पादन कार्यभार के लिए उच्च थ्रूपुट LLM अनुमान सर्वर।

circle-check
circle-info

वर्तमान संस्करण: v0.7.x — यह मार्गदर्शिका vLLM v0.7.3+ को कवर करती है। नई सुविधाओं में DeepSeek-R1 समर्थन, स्वचालित टूल चयन के साथ संरचित आउटपुट, मल्टी-LoRA सेवा, और बेहतर मेमोरी दक्षता शामिल हैं।

सर्वर आवश्यकताएँ

पैरामीटर
न्यूनतम
अनुशंसित

RAM

16GB

32GB+

VRAM

16GB (7B)

24GB+

नेटवर्क

500Mbps

1Gbps+

स्टार्टअप समय

5-15 मिनट

-

triangle-exclamation
circle-exclamation

क्यों vLLM?

  • सबसे तेज थ्रूपुट - PagedAttention के लिए 24x उच्चतर थ्रूपुट

  • उत्पादन के लिए तैयार - बॉक्स से बाहर OpenAI-अनुकूल API

  • निरंतर बैचिंग - कुशल मल्टी-यूज़र सर्विंग

  • स्ट्रीमिंग - वास्तविक समय टोकन जनरेशन

  • मल्टी-GPU - बड़े मॉडलों के लिए टेन्सर पैरेललिज़्म

  • मल्टी-LoRA - एक साथ कई फाइन-ट्यून किए गए एडाप्टर्स की सेवा (v0.7+)

  • संरचित आउटपुट - JSON स्कीमा प्रवर्तन और टूल कॉलिंग (v0.7+)

CLORE.AI पर त्वरित डिप्लॉय

Docker इमेज:

पोर्ट:

कमांड:

जांचें कि यह काम कर रहा है

डिप्लॉयमेंट के बाद, अपना खोजें http_pub URL में मेरे ऑर्डर:

circle-exclamation

अपनी सेवा तक पहुँचना

जब CLORE.AI पर परिनियोजित किया जाता है, तो vLLM तक पहुँचें http_pub URL:

circle-info

सभी localhost:8000 नीचे दिए गए उदाहरण SSH के माध्यम से कनेक्ट होने पर काम करते हैं। बाहरी पहुंच के लिए, इसे अपने साथ बदलें https://your-http-pub.clorecloud.net/ URL।

इंस्टॉलेशन

Docker का उपयोग (अनुशंसित)

pip का उपयोग

समर्थित मॉडल

मॉडल
पैरामीटर
आवश्यक VRAM
आवश्यक RAM

Mistral 7B

7B

14GB

16GB+

Llama 3.1 8B

8B

16GB

16GB+

Llama 3.1 70B

70B

140GB (या 2x80GB)

64GB+

Mixtral 8x7B

47B

90GB

32GB+

Qwen2.5 7B

7B

14GB

16GB+

Qwen2.5 72B

72B

145GB

64GB+

DeepSeek-V3

236B MoE

मल्टी-GPU

128GB+

DeepSeek-R1-Distill-Qwen-7B

7B

14GB

16GB+

DeepSeek-R1-Distill-Qwen-32B

32B

64GB

32GB+

DeepSeek-R1-Distill-Llama-70B

70B

140GB

64GB+

Phi-4

14B

28GB

32GB+

Gemma 2 9B

9B

18GB

16GB+

CodeLlama 34B

34B

68GB

32GB+

सर्वर विकल्प

बेसिक सर्वर

उत्पादन सर्वर

क्वांटाइज़ेशन के साथ (कम VRAM)

संरचित आउटपुट और टूल कॉलिंग (v0.7+)

स्वचालित टूल चयन और संरचित JSON आउटपुट सक्षम करें:

Python में उपयोग करें:

response format के माध्यम से संरचित JSON आउटपुट:

मल्टी-LoRA सर्विंग (v0.7+)

एक साथ कई LoRA एडाप्टर्स के साथ एक बेस मॉडल सेवा करें:

मॉडल नाम द्वारा एक विशिष्ट LoRA एडाप्टर क्वेरी करें:

DeepSeek-R1 समर्थन (v0.7+)

vLLM v0.7+ में DeepSeek-R1 डिस्टिल मॉडलों के लिए नेटिव समर्थन है। ये तर्कशील मॉडल <think> उनकी तर्क प्रक्रिया दिखाने वाले टैग उत्पन्न करते हैं।

DeepSeek-R1-Distill-Qwen-7B (सिंगल GPU)

DeepSeek-R1-Distill-Qwen-32B (डुअल GPU)

DeepSeek-R1-Distill-Llama-70B (क्वाड GPU)

DeepSeek-R1 क्वेरी करना

think टैग पार्स करना:

API उपयोग

चैट कम्पलीशन्स (OpenAI अनुकूल)

स्ट्रीमिंग

cURL

टेक्स्ट पूर्णताएँ

पूर्ण API संदर्भ

vLLM OpenAI-अनुकूल endpoints के साथ अतिरिक्त उपयोगिता endpoints भी प्रदान करता है।

मानक एंडपॉइंट्स

एंडपॉइंट
विधि
विवरण

/v1/models

GET

उपलब्ध मॉडल सूचीबद्ध करें

/v1/chat/completions

POST

चैट कम्पलीशन

/v1/completions

POST

टेक्स्ट कम्पलीशन

/health

GET

हेल्थ चेक (खाली परिणाम भी दे सकता है)

अतिरिक्त एंडपॉइंट्स

एंडपॉइंट
विधि
विवरण

/tokenize

POST

टेक्स्ट को टोकनाइज़ करें

/detokenize

POST

टोकन को टेक्स्ट में बदलें

/version

GET

vLLM संस्करण प्राप्त करें

/docs

GET

Swagger UI दस्तावेज़ीकरण

/metrics

GET

Prometheus मेट्रिक्स

टेक्स्ट टोकनाइज़ करें

अनुरोध भेजने से पहले टोकन की गिनती के लिए उपयोगी:

प्रतिक्रिया:

डिटोकनाइज़

टोकन IDs को वापस टेक्स्ट में बदलें:

प्रतिक्रिया:

वर्ज़न प्राप्त करें

प्रतिक्रिया:

Swagger दस्तावेज़ीकरण

इंटरऐक्टिव API डॉक्स के लिए ब्राउज़र में खोलें:

Prometheus मेट्रिक्स

मॉनिटरिंग के लिए:

circle-info

तर्कशील मॉडल: DeepSeek-R1 और समान मॉडल उत्तर देने से पहले मॉडल की तर्क प्रक्रिया दिखाने वाले <think> टैग्स शामिल करते हैं।

बेंचमार्क्स

थ्रूपुट (टोकन/सेकंड प्रति उपयोगकर्ता)

मॉडल
RTX 3090
RTX 4090
A100 40GB
A100 80GB

Mistral 7B

100

170

210

230

Llama 3.1 8B

95

150

200

220

Llama 3.1 8B (AWQ)

130

190

260

280

Mixtral 8x7B

-

45

70

85

Llama 3.1 70B

-

-

25 (2x)

45 (2x)

DeepSeek-R1 7B

90

145

190

210

DeepSeek-R1 32B

-

-

40

70 (2x)

बेंचमार्क जनवरी 2026 में अपडेट किए गए।

संदर्भ लंबाई बनाम VRAM

मॉडल
4K ctx
8K ctx
16K ctx
32K ctx

8B FP16

18GB

22GB

30GB

46GB

8B AWQ

8GB

10GB

14GB

22GB

70B FP16

145GB

160GB

190GB

250GB

70B AWQ

42GB

50GB

66GB

98GB

Hugging Face प्रमाणीकरण

गेटेड मॉडलों के लिए (Llama आदि):

या इसे परिवेश चर के रूप में सेट करें:

GPU आवश्यकताएँ

मॉडल
न्यूनतम VRAM
न्यूनतम RAM
अनुशंसित

7-8B

16GB

16GB

24GB VRAM, 32GB RAM

13B

26GB

32GB

40GB VRAM

34B

70GB

32GB

80GB VRAM

70B

140GB

64GB

2x80GB

लागत अनुमान

सामान्य CLORE.AI मार्केटप्लेस दरें:

GPU
VRAM
प्राइस/दिन
उत्तम हेतु

RTX 3090

24GB

$0.30–1.00

7-8B मॉडल

RTX 4090

24GB

$0.50–2.00

7-13B, तेज

A100

40GB

$1.50–3.00

13-34B मॉडल

A100

80GB

$2.00–4.00

34-70B मॉडल

मूल्य USD/दिन में हैं। दरें प्रदाता के अनुसार बदलती हैं — जांचें CLORE.AI मार्केटप्लेसarrow-up-right वर्तमान दरों के लिए।

समस्याओं का निवारण

लंबे समय के लिए HTTP 502

  1. RAM जाँच करें: सर्वर में 16GB+ RAM होना चाहिए

  2. VRAM जाँच करें: मॉडल में फिट होना चाहिए

  3. मॉडल डाउनलोडिंग: पहली बार चलाने पर HuggingFace से डाउनलोड होता है (5-15 मिनट)

  4. HF टोकन: गेटेड मॉडलों के लिए प्रमाणीकरण आवश्यक है

आउट ऑफ़ मेमोरी

मॉडल डाउनलोड विफल होता है

vLLM बनाम अन्य

फ़ीचर
vLLM
llama.cpp
Ollama

थ्रूपुट

सर्वोत्तम

अच्छा

अच्छा

VRAM उपयोग

उच्च

कम

मध्यम

उपयोग में सरलता

मध्यम

मध्यम

आसान

स्टार्टअप समय

5-15 मिनट

1-2 मिनिट

30 सेकंड

मल्टी-GPU

नेटिव

सीमित

सीमित

टूल कॉलिंग

हाँ (v0.7+)

सीमित

सीमित

मल्टी-LoRA

हाँ (v0.7+)

नहीं

नहीं

vLLM का उपयोग तब करें जब:

  • उच्च थ्रूपुट प्राथमिकता हो

  • कई उपयोगकर्ताओं की सेवा कर रहे हों

  • पर्याप्त VRAM और RAM हो

  • उत्पादन तैनाती

  • टूल कॉलिंग / संरचित आउटपुट चाहिए हों

Ollama का उपयोग तब करें जब:

  • तेज़ सेटअप चाहिए

  • एकल उपयोगकर्ता

  • कम संसाधन उपलब्ध हों

अगले कदम

  • Ollama - तेज स्टार्टअप के साथ सरल विकल्प

  • DeepSeek-R1 - तर्कशील मॉडल मार्गदर्शिका

  • DeepSeek-V3 - सर्वश्रेष्ठ सामान्य मॉडल

  • Qwen2.5 - बहुभाषी मॉडल

  • Llama.cpp - कम VRAM विकल्प

Last updated

Was this helpful?