Llama.cpp सर्वर

Clore.ai GPUs पर llama.cpp सर्वर के साथ प्रभावी LLM इनफरेंस

GPU पर llama.cpp सर्वर के साथ LLMs को प्रभावी ढंग से चलाएँ।

circle-check

सर्वर आवश्यकताएँ

पैरामीटर
न्यूनतम
अनुशंसित

RAM

8GB

16GB+

VRAM

6GB

8GB+

नेटवर्क

200Mbps

500Mbps+

स्टार्टअप समय

~2-5 मिनट

-

circle-info

GGUF क्वांटाइज़ेशन के कारण Llama.cpp मेमोरी-कुशल है। 7B मॉडल 6-8GB VRAM पर चल सकते हैं।

CLORE.AI पर किराये पर लेना

  1. GPU प्रकार, VRAM, और मूल्य के अनुसार फ़िल्टर करें

  2. चुनें ऑन-डिमांड (निश्चित दर) या स्पॉट (बिड प्राइस)

  3. अपना ऑर्डर कॉन्फ़िगर करें:

    • Docker इमेज चुनें

    • पोर्ट सेट करें (SSH के लिए TCP, वेब UI के लिए HTTP)

    • यदि आवश्यक हो तो एनवायरनमेंट वेरिएबल जोड़ें

    • स्टार्टअप कमांड दर्ज करें

  4. भुगतान चुनें: CLORE, BTC, या USDT/USDC

  5. ऑर्डर बनाएं और डिप्लॉयमेंट का इंतज़ार करें

अपने सर्वर तक पहुँचें

  • कनेक्शन विवरण में खोजें मेरे ऑर्डर

  • वेब इंटरफेस: HTTP पोर्ट URL का उपयोग करें

  • SSH: ssh -p <port> root@<proxy-address>

Llama.cpp क्या है?

Llama.cpp LLMs के लिए सबसे तेज़ CPU/GPU इन्फरेंस इंजन है:

  • GGUF क्वांटाइज़्ड मॉडलों का समर्थन करता है

  • कम मेमोरी उपयोग

  • OpenAI-अनुकूल API

  • मल्टी-यूज़र समर्थन

क्वांटाइज़ेशन स्तर

फॉर्मेट
आकार (7B)
स्पीड
गुणवत्ता

Q2_K

2.8GB

सबसे तेज

कम

Q4_K_M

4.1GB

तेज़

अच्छा

Q5_K_M

4.8GB

मध्यम

बहुत अच्छा

Q6_K

5.5GB

धीमा

उत्कृष्ट

Q8_0

7.2GB

सबसे धीमा

सर्वोत्तम

त्वरित तैनाती

Docker इमेज:

पोर्ट:

कमांड:

अपनी सेवा तक पहुँचना

डिप्लॉयमेंट के बाद, अपना खोजें http_pub URL में मेरे ऑर्डर:

  1. जाएँ मेरे ऑर्डर पृष्ठ

  2. अपने ऑर्डर पर क्लिक करें

  3. खोजें http_pub URL (उदा., abc123.clorecloud.net)

उपयोग करें https://YOUR_HTTP_PUB_URL की बजाय localhost नीचे दिए उदाहरणों में।

जांचें कि यह काम कर रहा है

circle-exclamation

पूर्ण API संदर्भ

मानक एंडपॉइंट्स

एंडपॉइंट
विधि
विवरण

/health

GET

हेल्थ जाँच

/v1/models

GET

मॉडल सूचीबद्ध करें

/v1/chat/completions

POST

चैट (OpenAI अनुकूल)

/v1/completions

POST

टेक्स्ट पूर्णता (OpenAI अनुकूल)

/v1/embeddings

POST

एम्बेडिंग्स जनरेट करें

/completion

POST

नेटिव completion एंडपॉइंट

/tokenize

POST

टेक्स्ट को टोकनाइज़ करें

/detokenize

POST

टोकन को डिटोकनाइज़ करें

/props

GET

सर्वर गुण

/metrics

GET

Prometheus मेट्रिक्स

टेक्स्ट टोकनाइज़ करें

प्रतिक्रिया:

सर्वर गुण

प्रतिक्रिया:

सोर्स से बनाएं

मॉडल डाउनलोड करें

सर्वर विकल्प

बेसिक सर्वर

पूर्ण GPU ऑफलोड

सभी विकल्प

API उपयोग

चैट कम्पलीशन्स (OpenAI अनुकूल)

स्ट्रीमिंग

टेक्स्ट पूर्णता

एम्बेडिंग्स

cURL उदाहरण

चैट

पूर्णता

हेल्थ चेक

मेट्रिक्स

मल्टी-GPU

मेमोरी अनुकूलन

सीमित VRAM के लिए

अधिकतम गति के लिए

मॉडल-विशिष्ट टेम्पलेट्स

Llama 2 चैट

Mistral इंस्ट्रक्ट

ChatML (कई मॉडल्स)

Python सर्वर रैपर

बेंचमार्किंग

प्रदर्शन तुलना

मॉडल
GPU
क्वांटाइज़ेशन
टोकन/सेकंड

Llama 3.1 8B

RTX 3090

Q4_K_M

~100

Llama 3.1 8B

RTX 4090

Q4_K_M

~150

Llama 3.1 8B

RTX 3090

Q4_K_M

~60

Mistral 7B

RTX 3090

Q4_K_M

~110

Mixtral 8x7B

A100

Q4_K_M

~50

समस्याओं का निवारण

CUDA नहीं मिला

आउट ऑफ़ मेमोरी

धीमा जनरेशन

प्रोडक्शन सेटअप

Systemd सेवा

nginx के साथ

लागत अनुमान

सामान्य CLORE.AI मार्केटप्लेस दरें (2024 के अनुसार):

GPU
घंटात्मक दर
दैनिक दर
4-घंटे सत्र

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

कीमतें प्रदाता और मांग के अनुसार बदलती हैं। जाँच करें CLORE.AI मार्केटप्लेसarrow-up-right वर्तमान दरों के लिए।

पैसे बचाएँ:

  • उपयोग करें स्पॉट लचीले वर्कलोड के लिए मार्केट (अक्सर 30-50% सस्ता)

  • भुगतान करें CLORE टोकन के साथ

  • विभिन्न प्रदाताओं के बीच कीमतों की तुलना करें

अगले कदम

  • vLLM इन्फरेंस - उच्च थ्रूपुट

  • ExLlamaV2 - तेज़ इन्फरेंस

  • Text Generation WebUI - वेब इंटरफ़ेस

Last updated

Was this helpful?