ExLlamaV2

Clore.ai GPUs पर ExLlamaV2 के साथ अधिकतम गति LLM इनफरेंस

ExLlamaV2 के साथ LLMs को अधिकतम गति पर चलाएँ।

circle-check

CLORE.AI पर किराये पर लेना

  1. GPU प्रकार, VRAM, और मूल्य के अनुसार फ़िल्टर करें

  2. चुनें ऑन-डिमांड (निश्चित दर) या स्पॉट (बिड प्राइस)

  3. अपना ऑर्डर कॉन्फ़िगर करें:

    • Docker इमेज चुनें

    • पोर्ट सेट करें (SSH के लिए TCP, वेब UI के लिए HTTP)

    • यदि आवश्यक हो तो एनवायरनमेंट वेरिएबल जोड़ें

    • स्टार्टअप कमांड दर्ज करें

  4. भुगतान चुनें: CLORE, BTC, या USDT/USDC

  5. ऑर्डर बनाएं और डिप्लॉयमेंट का इंतज़ार करें

अपने सर्वर तक पहुँचें

  • कनेक्शन विवरण में खोजें मेरे ऑर्डर

  • वेब इंटरफेस: HTTP पोर्ट URL का उपयोग करें

  • SSH: ssh -p <port> root@<proxy-address>

ExLlamaV2 क्या है?

ExLlamaV2 बड़े भाषा मॉडलों के लिए सबसे तेज़ इनफेरेंस इंजन है:

  • अन्य इंजनों की तुलना में 2-3x तेज़

  • उत्कृष्ट क्वांटाइज़ेशन (EXL2)

  • कम VRAM उपयोग

  • स्पेक्युलेटिव डिकोडिंग का समर्थन करता है

आवश्यकताएँ

मॉडल आकार
न्यूनतम VRAM
अनुशंसित

7B

6GB

RTX 3060

13B

10GB

RTX 3090

34B

20GB

RTX 4090

70B

40GB

A100

त्वरित तैनाती

Docker इमेज:

पोर्ट:

कमांड:

अपनी सेवा तक पहुँचना

डिप्लॉयमेंट के बाद, अपना खोजें http_pub URL में मेरे ऑर्डर:

  1. जाएँ मेरे ऑर्डर पृष्ठ

  2. अपने ऑर्डर पर क्लिक करें

  3. खोजें http_pub URL (उदा., abc123.clorecloud.net)

उपयोग करें https://YOUR_HTTP_PUB_URL की बजाय localhost नीचे दिए उदाहरणों में।

इंस्टॉलेशन

मॉडल डाउनलोड करें

EXL2 क्वांटाइज्ड मॉडल

वज़न प्रति बिट (Bits Per Weight, bpw)

BPW
गुणवत्ता
VRAM (7B)

2.0

कम

~3GB

3.0

अच्छा

~4GB

4.0

बहुत अच्छा

~5GB

5.0

उत्कृष्ट

~6GB

6.0

Near-FP16

~7GB

Python API

मूल जनरेशन

स्ट्रीमिंग जनरेशन

चैट फ़ॉर्मेट

सर्वर मोड

सर्वर शुरू करें

API उपयोग

चैट कंप्लीशन्स

TabbyAPI (सिफारिश किया गया सर्वर)

TabbyAPI एक फीचर-समृद्ध ExLlamaV2 सर्वर प्रदान करता है:

TabbyAPI सुविधाएँ

  • OpenAI-अनुकूल API

  • एक से अधिक मॉडल समर्थन

  • LoRA हॉट-स्वैपिंग

  • स्ट्रीमिंग

  • फ़ंक्शन कॉलिंग

  • एडमिन API

अनुमानात्मक डिकोडिंग

जनरेशन तेज़ करने के लिए छोटा मॉडल उपयोग करें:

अपने मॉडल क्वांटाइज़ करें

EXL2 में कन्वर्ट करें

कमांड लाइन

मेमोरी प्रबंधन

कैश आवंटन

मल्टी-GPU

प्रदर्शन तुलना

मॉडल
इंजन
GPU
टोकन/सेकंड

Llama 3.1 8B

ExLlamaV2

RTX 3090

~150

Llama 3.1 8B

llama.cpp

RTX 3090

~100

Llama 3.1 8B

vLLM

RTX 3090

~120

Llama 3.1 8B

ExLlamaV2

RTX 3090

~90

Mixtral 8x7B

ExLlamaV2

A100

~70

उन्नत सेटिंग्स

सैंपलिंग पैरामीटर्स

बैच जनरेशन

समस्याओं का निवारण

CUDA मेमोरी समाप्त

धीमा लोड होना

मॉडल नहीं मिला

LangChain के साथ एकीकरण

लागत अनुमान

सामान्य CLORE.AI मार्केटप्लेस दरें (2024 के अनुसार):

GPU
घंटात्मक दर
दैनिक दर
4-घंटे सत्र

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

कीमतें प्रदाता और मांग के अनुसार बदलती हैं। जाँच करें CLORE.AI मार्केटप्लेसarrow-up-right वर्तमान दरों के लिए।

पैसे बचाएँ:

  • उपयोग करें स्पॉट लचीले वर्कलोड के लिए मार्केट (अक्सर 30-50% सस्ता)

  • भुगतान करें CLORE टोकन के साथ

  • विभिन्न प्रदाताओं के बीच कीमतों की तुलना करें

अगले कदम

Last updated

Was this helpful?