LMDeploy

शंघाई AI लैब द्वारा कुशल LLM परिनियोजन टूलकिट — बड़े भाषा मॉडल्स के लिए प्रोडक्शन-ग्रेड इनफेरेंस, क्वांटाइजेशन, और सर्विंग निरंतर बैचिंग और PagedAttention के साथ।

🏛️ विकसित किया गया द्वारा OpenMMLab / शंघाई AI लैब | Apache-2.0 लाइसेंस | 4,000+ GitHub स्टार्स


LMDeploy क्या है?

LMDeploy उत्पादन में बड़े भाषा मॉडल्स को कंप्रेस, परिनियोजित और सर्व करने के लिए एक व्यापक टूलकिट है। OpenMMLab (MMDetection, MMSeg) के उसी टीम द्वारा निर्मित, यह व्यावहारिक परिनियोजन के लिए रिसर्च-ग्रेड अनुकूलन लाता है:

  • TurboMind इंजन — CUDA अनुकूलनों के साथ उच्च-प्रदर्शन C++ इनफेरेंस बैकएंड

  • PyTorch इंजन — व्यापक मॉडल संगतता के लिए लचीला पायथन-आधारित इंजन

  • निरंतर बैचिंग — समकालिक अनुरोधों के बीच GPU उपयोगिता को अधिकतम करता है

  • PagedAttention — कुशल KV कैश प्रबंधन (vLLM जैसा)

  • 4-बिट / 8-बिट क्वांटाइजेशन — AWQ और SmoothQuant समर्थन

  • विजन-भाषा मॉडल्स — InternVL, LLaVA, Qwen-VL समर्थन

vLLM की तुलना में, LMDeploy का TurboMind इंजन Llama 3 8B पर batch=32 में ~1.36× अधिक थ्रूपुट देता है, और इसकी AWQ क्वांटाइजेशन प्रथम-श्रेणी है — एक सोच-समाप्त बाद का कार्य नहीं। VLMs (विशेषकर InternVL2) के लिए, LMDeploy संदर्भीय परिनियोजन स्टैक है।

क्यों LMDeploy?

फ़ीचर
LMDeploy
vLLM
🆕 — KV कैश साझा करने के लिए RadixAttention, MoE पर vLLM की तुलना में 2–5× थ्रूपुट —

निरंतर बैचिंग

AWQ क्वांटाइजेशन

स्पेकुलेटिव डिकोडिंग

विजन-भाषा

सीमित

सीमित

OpenAI API

TurboMind (कस्टम इंजन)


Clore.ai पर शीघ्र आरम्भ

चरण 1: एक GPU सर्वर चुनें

पर clore.aiarrow-up-right मार्केटप्लेस:

  • न्यूनतम: NVIDIA GPU with 8GB VRAM (7B मॉडलों के लिए)

  • अनुशंसित: RTX 3090/4090 (24GB) या A100 (40/80GB)

  • CUDA: 11.8 या 12.x आवश्यक

चरण 2: LMDeploy Docker परिनियोजित करें

पोर्ट मैपिंग्स:

कंटेनर पोर्ट
उद्देश्य

22

SSH पहुंच

23333

LMDeploy API सर्वर

पर्यावरण चर:

चरण 3: SSH और सत्यापित करें


API सर्वर शुरू करना

OpenAI-अनुकूल सर्वर (अनुशंसित)

PyTorch इंजन (व्यापक संगतता)

सर्वर स्टार्टअप आउटपुट

circle-check

समर्थित मॉडल

टेक्स्ट मॉडल्स

विजन-भाषा मॉडल्स


क्वांटाइजेशन

AWQ 4-बिट क्वांटाइजेशन

LMDeploy का AWQ (Activation-aware Weight Quantization) 4-बिट पर उत्कृष्ट गुणवत्ता उत्पन्न करता है:

SmoothQuant W8A8

8-बिट वेट और एक्टिवेशन क्वांटाइजेशन (थ्रूपुट-नाज़ुक परिनियोजनों के लिए बेहतर):

क्वांटाइजेशन प्रभाव

क्वांटाइजेशन
VRAM (7B)
गुणवत्ता हानि
थ्रूपुट लाभ

कोई नहीं (bf16)

~14GB

कोई नहीं

बेसलाइन

SmoothQuant W8A8

~8GB

न्यूनतम

+20%

AWQ W4A16

~4GB

निम्न

+15%

GPTQ W4A16

~4GB

निम्न

+10%

circle-info

AWQ सिफारिश: अधिकांश उपयोग मामलों के लिए, AWQ 4-बिट गुणवत्ता और VRAM बचत का सबसे अच्छा संतुलन है। उपयोग करें --w-group-size 128 बेहतर गुणवत्ता के लिए, थोड़ी अधिक मेमोरी उपयोग के साथ।


API उपयोग उदाहरण

Python क्लाइंट

स्ट्रीमिंग

LMDeploy नेटिव पायथन क्लाइंट

विजन-भाषा मॉडल


मल्टी-GPU परिनियोजन

टेंसर पैरेललिज़्म


उन्नत कॉन्फ़िगरेशन

TurboMind इंजन कॉन्फ़िग

जनरेशन कॉन्फिग


मानिटरिंग और मीट्रिक्स

सर्वर स्वास्थ्य जांचें

GPU मॉनिटरिंग


Docker Compose उदाहरण


बेंचमार्किंग

नमूना आउटपुट (RTX 4090, TurboMind, bf16):

A100 80GB पर, उच्च समवर्तीता पर HBM2e मेमोरी बैंडविड्थ (2 TB/s बनाम 1 TB/s) के कारण RTX 4090 की तुलना में ~2.2× अधिक थ्रूपुट की अपेक्षा करें।


Clore.ai GPU सिफारिशें

अपने लक्षित मॉडल आकार और सर्विंग लोड के आधार पर चुनें:

उपयोग केस
GPU
VRAM
क्यों

7–13B मॉडल्स, dev/staging

RTX 3090

24 GB

सबसे अच्छा $/VRAM अनुपात; 7B bf16 या 13B AWQ को संभालता है

7–13B मॉडल्स, प्रोडक्शन

RTX 4090

24 GB

एक ही VRAM पर 3090 से ~40% तेज़; Llama 3 8B पर 412 tok/s

70B मॉडल्स, टीम सर्विंग

A100 40GB

40 GB

70B AWQ फिट होता है; विश्वसनीयता के लिए ECC मेमोरी

70B मॉडल्स, उच्च थ्रूपुट

A100 80GB

80 GB

70B bf16 फिट होता है; batch=32 पर A100 40GB की तुलना में 2× थ्रूपुट

बजट चयन: RTX 3090 + AWQ 4-बिट — लगभग 280 tok/s batch=8 पर Llama 3 8B सर्व करता है, जो अधिकांश API उपयोग मामलों को कवर करता है।

स्पीड चयन: RTX 4090 — 7–13B मॉडलों के लिए प्रति-डॉलर सबसे तेज़; TurboMind इसके 1 TB/s बैंडविड्थ के हर GB/s को निचोड़ता है।

प्रोडक्शन चयन: A100 80GB — बिना क्वांटाइजेशन गुणवत्ता समझौते के Qwen2-72B या Llama 3 70B को पूर्ण bf16 में चलाएँ; मल्टी-इंस्टेंस GPU सर्विंग में आसानी से फिट होता है।


समस्या निवारण

मॉडल लोड नहीं हो रहा

CUDA मेमोरी खत्म (Out of Memory)

पोर्ट पहले से उपयोग में है

circle-exclamation

Clore.ai GPU सिफारिशें

LMDeploy का TurboMind इंजन और W4A16 क्वांटाइजेशन सर्वश्रेष्ठ-इन-क्लास थ्रूपुट प्रदान करते हैं — खासकर Ampere/Hopper GPUs पर।

GPU
VRAM
Clore.ai कीमत
Llama 3 8B थ्रूपुट
Llama 3 70B Q4

RTX 3090

24 GB

~$0.12/घंटा

~120 tok/s (fp16)

❌ बहुत बड़ा

RTX 4090

24 GB

~$0.70/घंटा

~200 tok/s (fp16)

❌ बहुत बड़ा

A100 40GB

40 GB

~$1.20/घंटा

~160 tok/s (fp16)

~55 tok/s (W4A16)

A100 80GB

80 GB

~$2.00/घंटा

~175 tok/s (fp16)

~80 tok/s (fp16)

2× RTX 4090

48 GB

~$1.40/hr

~380 tok/s (tensor parallel)

~60 tok/s

circle-info

RTX 3090 at ~$0.12/hr 7B–13B मॉडलों के लिए यह शीर्ष विकल्प है। LMDeploy का TurboMind इंजन कंज्यूमर GPUs से लगभग-अधिकतम थ्रूपुट निकालता है। एकल RTX 3090 Llama 3 8B सर्व करते समय 120 tok/s हैं — 10–20 समकालिक उपयोगकर्ताओं वाले प्रोडक्शन APIs के लिए पर्याप्त।

70B मॉडलों के लिए: A100 40GB (~$1.20/hr) W4A16 क्वांटाइजेशन के साथ ~55 tok/s देता है — दो RTX 4090s से अधिक किफायती।


संसाधन

Last updated

Was this helpful?