MLC-LLM
MLC-LLM क्या है?
मुख्य क्षमताएँ
Clore.ai पर MLC-LLM क्यों उपयोग करें?
Clore.ai पर शीघ्र आरम्भ
चरण 1: एक GPU सर्वर खोजें
चरण 2: MLC-LLM परिनियोजित करें
कंटेनर पोर्ट
उद्देश्य
चरण 3: SSH के जरिए कनेक्ट करें
स्थापन और सेटअप
विकल्प A: प्री-कम्पाइल्ड मॉडल का उपयोग करें (सबसे तेज)
विकल्प B: अपना स्वयं का मॉडल कम्पाइल करें
API सर्वर चलाना
OpenAI-अनुकूल सर्वर प्रारम्भ करें
सर्वर स्टार्टअप आउटपुट
उपलब्ध API एंडपॉइंट्स
एंडपॉइंट
विधि
विवरण
API उपयोग उदाहरण
चैट कंप्लीशंस (Python)
स्ट्रीमिंग प्रतिक्रिया
cURL उदाहरण
उपलब्ध प्री-कम्पाइल्ड मॉडल
Llama 3 सीरीज़
Mistral / Mixtral
Gemma
Phi
क्वांटाइज़ेशन विकल्प
क्वांटाइजेशन
बिट्स
गुणवत्ता
VRAM (7B)
VRAM (13B)
मल्टी-GPU परिनियोजन
वेब चैट इंटरफ़ेस
प्रदर्शन ट्यूनिंग
बैच साइज का अनुकूलन करें
GPU उपयोग की निगरानी करें
थ्रुपुट का बेंचमार्क करें
Docker Compose सेटअप
समस्या निवारण
मॉडल डाउनलोड विफल
मेमोरी खत्म (OOM)
CUDA संस्करण मेल नहीं खाता
सर्वर पहुँच योग्य नहीं
Clore.ai GPU सिफारिशें
GPU
VRAM
Clore.ai कीमत
माध्य/दिन
थ्रुपुट (Llama 3 8B Q4)
संसाधन
Last updated
Was this helpful?