ExLlamaV2
Clore.ai GPUs पर ExLlamaV2 के साथ अधिकतम गति LLM इनफरेंस
CLORE.AI पर किराये पर लेना
अपने सर्वर तक पहुँचें
ExLlamaV2 क्या है?
आवश्यकताएँ
मॉडल आकार
न्यूनतम VRAM
अनुशंसित
त्वरित तैनाती
अपनी सेवा तक पहुँचना
इंस्टॉलेशन
मॉडल डाउनलोड करें
EXL2 क्वांटाइज्ड मॉडल
वज़न प्रति बिट (Bits Per Weight, bpw)
BPW
गुणवत्ता
VRAM (7B)
Python API
मूल जनरेशन
स्ट्रीमिंग जनरेशन
चैट फ़ॉर्मेट
सर्वर मोड
सर्वर शुरू करें
API उपयोग
चैट कंप्लीशन्स
TabbyAPI (सिफारिश किया गया सर्वर)
TabbyAPI सुविधाएँ
अनुमानात्मक डिकोडिंग
अपने मॉडल क्वांटाइज़ करें
EXL2 में कन्वर्ट करें
कमांड लाइन
मेमोरी प्रबंधन
कैश आवंटन
मल्टी-GPU
प्रदर्शन तुलना
मॉडल
इंजन
GPU
टोकन/सेकंड
उन्नत सेटिंग्स
सैंपलिंग पैरामीटर्स
बैच जनरेशन
समस्याओं का निवारण
CUDA मेमोरी समाप्त
धीमा लोड होना
मॉडल नहीं मिला
LangChain के साथ एकीकरण
लागत अनुमान
GPU
घंटात्मक दर
दैनिक दर
4-घंटे सत्र
अगले कदम
Last updated
Was this helpful?