Llama.cpp सर्वर
Clore.ai GPUs पर llama.cpp सर्वर के साथ प्रभावी LLM इनफरेंस
सर्वर आवश्यकताएँ
पैरामीटर
न्यूनतम
अनुशंसित
CLORE.AI पर किराये पर लेना
अपने सर्वर तक पहुँचें
Llama.cpp क्या है?
क्वांटाइज़ेशन स्तर
फॉर्मेट
आकार (7B)
स्पीड
गुणवत्ता
त्वरित तैनाती
अपनी सेवा तक पहुँचना
जांचें कि यह काम कर रहा है
पूर्ण API संदर्भ
मानक एंडपॉइंट्स
एंडपॉइंट
विधि
विवरण
टेक्स्ट टोकनाइज़ करें
सर्वर गुण
सोर्स से बनाएं
मॉडल डाउनलोड करें
सर्वर विकल्प
बेसिक सर्वर
पूर्ण GPU ऑफलोड
सभी विकल्प
API उपयोग
चैट कम्पलीशन्स (OpenAI अनुकूल)
स्ट्रीमिंग
टेक्स्ट पूर्णता
एम्बेडिंग्स
cURL उदाहरण
चैट
पूर्णता
हेल्थ चेक
मेट्रिक्स
मल्टी-GPU
मेमोरी अनुकूलन
सीमित VRAM के लिए
अधिकतम गति के लिए
मॉडल-विशिष्ट टेम्पलेट्स
Llama 2 चैट
Mistral इंस्ट्रक्ट
ChatML (कई मॉडल्स)
Python सर्वर रैपर
बेंचमार्किंग
प्रदर्शन तुलना
मॉडल
GPU
क्वांटाइज़ेशन
टोकन/सेकंड
समस्याओं का निवारण
CUDA नहीं मिला
आउट ऑफ़ मेमोरी
धीमा जनरेशन
प्रोडक्शन सेटअप
Systemd सेवा
nginx के साथ
लागत अनुमान
GPU
घंटात्मक दर
दैनिक दर
4-घंटे सत्र
अगले कदम
Last updated
Was this helpful?