vLLM
Clore.ai GPUs पर vLLM के साथ उच्च-थ्रूपुट LLM इनफरेंस
सर्वर आवश्यकताएँ
पैरामीटर
न्यूनतम
अनुशंसित
क्यों vLLM?
CLORE.AI पर त्वरित डिप्लॉय
जांचें कि यह काम कर रहा है
अपनी सेवा तक पहुँचना
इंस्टॉलेशन
Docker का उपयोग (अनुशंसित)
pip का उपयोग
समर्थित मॉडल
मॉडल
पैरामीटर
आवश्यक VRAM
आवश्यक RAM
सर्वर विकल्प
बेसिक सर्वर
उत्पादन सर्वर
क्वांटाइज़ेशन के साथ (कम VRAM)
संरचित आउटपुट और टूल कॉलिंग (v0.7+)
मल्टी-LoRA सर्विंग (v0.7+)
DeepSeek-R1 समर्थन (v0.7+)
DeepSeek-R1-Distill-Qwen-7B (सिंगल GPU)
DeepSeek-R1-Distill-Qwen-32B (डुअल GPU)
DeepSeek-R1-Distill-Llama-70B (क्वाड GPU)
DeepSeek-R1 क्वेरी करना
API उपयोग
चैट कम्पलीशन्स (OpenAI अनुकूल)
स्ट्रीमिंग
cURL
टेक्स्ट पूर्णताएँ
पूर्ण API संदर्भ
मानक एंडपॉइंट्स
एंडपॉइंट
विधि
विवरण
अतिरिक्त एंडपॉइंट्स
एंडपॉइंट
विधि
विवरण
टेक्स्ट टोकनाइज़ करें
डिटोकनाइज़
वर्ज़न प्राप्त करें
Swagger दस्तावेज़ीकरण
Prometheus मेट्रिक्स
बेंचमार्क्स
थ्रूपुट (टोकन/सेकंड प्रति उपयोगकर्ता)
मॉडल
RTX 3090
RTX 4090
A100 40GB
A100 80GB
संदर्भ लंबाई बनाम VRAM
मॉडल
4K ctx
8K ctx
16K ctx
32K ctx
Hugging Face प्रमाणीकरण
GPU आवश्यकताएँ
मॉडल
न्यूनतम VRAM
न्यूनतम RAM
अनुशंसित
लागत अनुमान
GPU
VRAM
प्राइस/दिन
उत्तम हेतु
समस्याओं का निवारण
लंबे समय के लिए HTTP 502
आउट ऑफ़ मेमोरी
मॉडल डाउनलोड विफल होता है
vLLM बनाम अन्य
फ़ीचर
vLLM
llama.cpp
Ollama
अगले कदम
Last updated
Was this helpful?