MLC-LLM

एमएल कम्पाइलेशन के माध्यम से सार्वभौमिक LLM परिनियोजन — मशीन लर्निंग कम्पाइलेशन का उपयोग करके किसी भी हार्डवेयर पर किसी भी बड़े लैंग्वेज मॉडल को अधिकतम प्रदर्शन के साथ चलाएँ।

🌟 20,000+ GitHub स्टार्स | MLC AI टीम द्वारा मेंटained | Apache-2.0 लाइसेंस


MLC-LLM क्या है?

MLC-LLM (Machine Learning Compilation for Large Language Models) एक सार्वभौमिक फ्रेमवर्क है जो विविध हार्डवेयर बैकएंड्स पर बड़े लैंग्वेज मॉडलों के कुशल परिनियोजन को सक्षम बनाता है। का लाभ उठाकर TVM (Tensor Virtual Machine) अपनी कम्पाइलेशन बैकएंड के रूप में, MLC-LLM LLM मॉडलों को सीधे नेटिव हार्डवेयर कोड में कम्पाइल करता है — बिना हार्डवेयर-विशेष इंजीनियरिंग के लगभग अनुकूल प्रदर्शन प्राप्त करता है।

मुख्य क्षमताएँ

  • सर्वव्यापी हार्डवेयर समर्थन — NVIDIA CUDA, AMD ROCm, Apple Metal, Vulkan, WebGPU

  • OpenAI-अनुकूल REST API — मौजूदा वर्कफ़्लो के लिए ड्रॉप-इन रिप्लेसमेंट

  • कई मॉडल फ़ॉर्मैट — Llama, Mistral, Gemma, Phi, Qwen, Falcon, और अधिक

  • 4-बिट / 8-बिट क्वांटाइजेशन — उपभोक्ता GPUs पर बड़े मॉडल चलाएँ

  • चैट इंटरफ़ेस — त्वरित परीक्षण के लिए बिल्ट-इन वेब UI

  • Python और CLI टूल्स — लचीले एकीकरण विकल्प

Clore.ai पर MLC-LLM क्यों उपयोग करें?

Clore.ai GPU मार्केटप्लेस आपको प्रतियोगी किराये की दरों पर उच्च-प्रदर्शन NVIDIA GPUs तक पहुँच देता है। MLC-LLM की कम्पाइलेशन अप्रोच प्रत्येक GPU से अधिकतम थ्रुपुट निकालती है — जिससे यह आदर्श है:

  • स्केल पर प्रोडक्शन API इनफेरेंस

  • मॉडल आकारों के पार रिसर्च और बेंचमार्किंग

  • क्वांटाइज़्ड मॉडलों के साथ लागत-कुशल सर्विंग

  • एक ही GPU इंस्टेंस पर मल्टी-मॉडल परिनियोजन


Clore.ai पर शीघ्र आरम्भ

चरण 1: एक GPU सर्वर खोजें

  1. जाएँ clore.aiarrow-up-right मार्केटप्लेस

  2. सर्वरों को फ़िल्टर करें: NVIDIA GPU,न्यूनतम 8GB VRAM (7B+ मॉडलों के लिए 16GB+ अनुशंसित)

  3. इष्टतम प्रदर्शन के लिए: RTX 3090, RTX 4090, A100, या H100

चरण 2: MLC-LLM परिनियोजित करें

circle-info

नोट: MLC-LLM Docker Hub पर आधिकारिक प्री-बिल्ट Docker इमेज प्रकाशित नहीं करता। अनुशंसित परिनियोजन दृष्टिकोण यह है कि NVIDIA CUDA बेस इमेज का उपयोग करें और pip के माध्यम से MLC-LLM इंस्टॉल करें। उपयोग करें nvidia/cuda:12.1.0-devel-ubuntu22.04 को अपने Clore.ai बेस इमेज के रूप में।

Clore.ai ऑर्डर कॉन्फ़िगरेशन में NVIDIA CUDA बेस इमेज का उपयोग करें:

पोर्ट मैपिंग्स:

कंटेनर पोर्ट
उद्देश्य

22

SSH पहुंच

8000

REST API सर्वर

अनुशंसित पर्यावरण चर:

स्टार्टअप स्क्रिप्ट (SSH के बाद चलाएँ):

चरण 3: SSH के जरिए कनेक्ट करें


स्थापन और सेटअप

विकल्प A: प्री-कम्पाइल्ड मॉडल का उपयोग करें (सबसे तेज)

MLC-AI Hugging Face पर प्री-कम्पाइल्ड मॉडलों का पुस्तकालय रखता है। किसी कम्पाइलेशन की आवश्यकता नहीं:

विकल्प B: अपना स्वयं का मॉडल कम्पाइल करें

कस्टम मॉडलों या विशिष्ट क्वांटाइज़ेशन आवश्यकताओं के लिए:

circle-info

कम्पाइलेशन समय: एक 7B मॉडल को पहली बार चलाते समय आम तौर पर कम्पाइल करने में 10–30 मिनट लगते हैं। कम्पाइल किए गए आर्टिफैक्ट्स कैश किए जाते हैं और बाद के लॉन्च पर पुन: प्रयुक्त होते हैं।


API सर्वर चलाना

OpenAI-अनुकूल सर्वर प्रारम्भ करें

सर्वर स्टार्टअप आउटपुट

उपलब्ध API एंडपॉइंट्स

एंडपॉइंट
विधि
विवरण

/v1/chat/completions

POST

चैट कंप्लीशंस (OpenAI फ़ॉर्मैट)

/v1/completions

POST

टेक्स्ट कंप्लीशंस

/v1/models

GET

उपलब्ध मॉडलों की सूची बनाएँ

/v1/debug/dump_event_trace

GET

प्रदर्शन डिबगिंग


API उपयोग उदाहरण

चैट कंप्लीशंस (Python)

स्ट्रीमिंग प्रतिक्रिया

cURL उदाहरण


उपलब्ध प्री-कम्पाइल्ड मॉडल

MLC-AI Hugging Face पर रेडी-टू-यूज़ कम्पाइल्ड मॉडल प्रदान करता है:

Llama 3 सीरीज़

Mistral / Mixtral

Gemma

Phi

circle-check

क्वांटाइज़ेशन विकल्प

MLC-LLM कई क्वांटाइज़ेशन स्कीम्स का समर्थन करता है। अपने VRAM बजट के आधार पर चुनें:

क्वांटाइजेशन
बिट्स
गुणवत्ता
VRAM (7B)
VRAM (13B)

q4f16_1

4-बिट

★★★★☆

~4GB

~7GB

q4f32_1

4-बिट (f32 एक्यूम)

★★★★☆

~4GB

~7GB

q8f16_1

8-बिट

★★★★★

~8GB

~14GB

q0f16

16-बिट (कोई क्वांट नहीं)

★★★★★

~14GB

~26GB

q0f32

32-बिट (कोई क्वांट नहीं)

★★★★★

~28GB

~52GB

circle-exclamation

मल्टी-GPU परिनियोजन

बड़े मॉडलों (70B+) के लिए जो मल्टी-GPU की आवश्यकता रखते हैं:

परिनियोजन से पहले GPU टोपोलॉजी जांचें:

circle-info

सबसे अच्छा प्रदर्शन: मल्टी-GPU NVLink से जुड़े कार्ड्स (जैसे A100 80GB SXM जोड़े) के साथ सबसे अच्छा काम करता है। PCIe-से जुड़े GPUs बड़े मॉडलों पर बॉटलनेक्स दिखाएँगे।


वेब चैट इंटरफ़ेस

MLC-LLM में एक बिल्ट-इन वेब UI शामिल है जो सर्वर चलने पर पहुँचा जा सकता है:

UI पर पहुँचें: http://<clore-node-ip>:<api-port>


प्रदर्शन ट्यूनिंग

बैच साइज का अनुकूलन करें

GPU उपयोग की निगरानी करें

थ्रुपुट का बेंचमार्क करें


Docker Compose सेटअप

Clore.ai पर उत्पादन-तैयार परिनियोजन के लिए NVIDIA CUDA बेस इमेज के साथ और pip के माध्यम से MLC-LLM इंस्टॉल करके:


समस्या निवारण

मॉडल डाउनलोड विफल

मेमोरी खत्म (OOM)

CUDA संस्करण मेल नहीं खाता

triangle-exclamation

सर्वर पहुँच योग्य नहीं


Clore.ai GPU सिफारिशें

MLC-LLM की कम्पाइलेशन अप्रोच प्रत्येक GPU टियर पर लगभग अनुकूल थ्रुपुट देती है। मॉडल आकार और बजट के आधार पर चुनें:

GPU
VRAM
Clore.ai कीमत
माध्य/दिन
थ्रुपुट (Llama 3 8B Q4)

RTX 3090

24 GB

~$0.12/घंटा

7B–13B मॉडल, बजट सर्विंग

~85 tok/s

RTX 4090

24 GB

~$0.70/घंटा

7B–34B मॉडल, तेज़ सर्विंग

~140 tok/s

A100 40GB

40 GB

~$1.20/घंटा

34B–70B, प्रोडक्शन API

~110 tok/s

A100 80GB

80 GB

~$2.00/घंटा

70B+, मल्टी-मॉडल सर्विंग

~130 tok/s

H100 SXM

80 GB

~$3.50/hr

अधिकतम थ्रुपुट, FP8

~280 tok/s

अनुशंसित शुरुआत बिंदु: RTX 3090 लगभग ~$0.12/hr पर Llama 3 8B और Mistral 7B सर्विंग के लिए सर्वश्रेष्ठ कीमत-प्रदर्शन अनुपात है जब MLC-LLM के माध्यम से उपयोग किया जाए। कम्पाइल्ड कर्नेल उपभोक्ता GPUs से लगभग अधिकतम उपयोगिता निकालते हैं।

70B मॉडलों (उदा., Llama 3 70B Q4) के लिए: A100 40GB (~$1.20/hr) या टेन्सर पैरेललिज़्म के माध्यम से दो RTX 3090s का उपयोग करें।


संसाधन

Last updated

Was this helpful?