Ollama

Clore.ai GPUs पर Ollama के साथ लोकली LLMs चलाएँ

CLORE.AI GPUs पर स्थानीय रूप से LLMs चलाने का सबसे आसान तरीका।

circle-info

वर्तमान संस्करण: v0.6+ — यह मार्गदर्शिका Ollama v0.6 और बाद के संस्करणों को कवर करती है। प्रमुख नए फीचर्स में संरचित आउटपुट (JSON स्कीमा प्रवर्तन), OpenAI-संगत एंबेडिंग एंडपॉइंट (/api/embed) और समवर्ती मॉडल लोडिंग (स्वैपिंग के बिना कई मॉडल एक साथ चलाना) शामिल हैं। देखें v0.6+ में नया विवरण के लिए।

circle-check

सर्वर आवश्यकताएँ

पैरामीटर
न्यूनतम
अनुशंसित

RAM

8GB

16GB+

VRAM

6GB

8GB+

नेटवर्क

100Mbps

500Mbps+

स्टार्टअप समय

~30 सेकंड

-

circle-info

Ollama हल्का है और अधिकांश GPU सर्वरों पर काम करता है। बड़े मॉडलों (13B+) के लिए 16GB+ RAM और 12GB+ VRAM वाले सर्वर चुनें।

क्यों Ollama?

  • एक-कमान सेटअप - न तो Python, न ही निर्भरताएँ

  • मॉडल लाइब्रेरी - मॉडल डाउनलोड करें ollama pull

  • OpenAI-अनुकूल API - ड्रॉप-इन रिप्लेसमेंट

  • GPU एक्सेलेरेशन - स्वचालित CUDA पता लगाने

  • मल्टी-मॉडल - एक साथ कई मॉडल चलाएँ (v0.6+)

CLORE.AI पर त्वरित डिप्लॉय

Docker इमेज:

पोर्ट:

कमांड:

जांचें कि यह काम कर रहा है

डिप्लॉयमेंट के बाद, अपना खोजें http_pub URL में मेरे ऑर्डर और परीक्षण करें:

circle-exclamation

अपनी सेवा तक पहुँचना

जब CLORE.AI पर परिनियोजित किया जाता है, तो अपने Ollama इंस्टेंस तक पहुँचें http_pub URL:

circle-info

सभी localhost:11434 नीचे दिए गए उदाहरण SSH के माध्यम से कनेक्ट होने पर काम करते हैं। बाहरी पहुंच के लिए, इसे अपने साथ बदलें https://your-http-pub.clorecloud.net/ URL।

इंस्टॉलेशन

Docker का उपयोग (अनुशंसित)

मैनुअल इंस्टॉलेशन

यह एकल कमान Ollama का नवीनतम संस्करण इंस्टॉल करता है, systemd सेवा सेट करता है, और GPU पता लगाने को स्वचालित रूप से कॉन्फ़िगर करता है। Ubuntu, Debian, Fedora और अधिकांश आधुनिक Linux वितरणों पर काम करता है।

मॉडल चलाना

पुल और रन

लोकप्रिय मॉडल

मॉडल
आकार
उपयोग का मामला

llama3.2

3B

तेज़, सामान्य प्रयोजन

llama3.1

8B

बेहतर गुणवत्ता

llama3.1:70b

70B

सर्वोत्तम गुणवत्ता

mistral

7B

तेज़, अच्छी गुणवत्ता

mixtral

47B

MoE, उच्च गुणवत्ता

codellama

7-34B

कोड जनरेशन

deepseek-coder-v2

16B

कोड के लिए सबसे अच्छा

deepseek-r1

7B-671B

तर्क मोडल

deepseek-r1:32b

32B

संतुलित तर्क

qwen2.5

7B

बहुभाषी

qwen2.5:72b

72B

Qwen की सबसे अच्छी गुणवत्ता

phi4

14B

Microsoft का नवीनतम

gemma2

9B

Google का मॉडल

मॉडल वेरिएंट

v0.6+ में नया

Ollama v0.6 ने प्रोडक्शन वर्कलोड के लिए कई प्रमुख सुविधाएँ पेश कीं:

संरचित आउटपुट (JSON स्कीमा)

मॉडल प्रतिक्रियाओं को किसी विशिष्ट JSON स्कीमा से मेल खाने के लिए मजबूर करें। उन एप्लिकेशन के लिए उपयोगी जो विश्वसनीय, पार्स करने योग्य आउटपुट की आवश्यकता होती है:

संरचित आउटपुट के साथ Python उदाहरण:

OpenAI-संगत एंबेडिंग एंडपॉइंट (/api/embed)

v0.6+ में नया: यह /api/embed एंडपॉइंट पूर्ण रूप से OpenAI-संगत है और बैच्ड इनपुट का समर्थन करता है:

OpenAI क्लाइंट सीधे काम करता है /v1/embeddings:

लोकप्रिय एंबेडिंग मॉडल:

समवर्ती मॉडल लोडिंग

v0.6 से पहले, Ollama एक मॉडल को अनलोड करता था ताकि दूसरा लोड किया जा सके। V0.6+ एक साथ कई मॉडल चलाने का समर्थन करता है, सीमित केवल उपलब्ध VRAM द्वारा:

सहकालन कॉन्फ़िगर करें:

यह विशेष रूप से उपयोगी है:

  • विभिन्न मॉडलों का A/B परीक्षण

  • विभिन्न कार्यों के लिए विशेषज्ञ मॉडल (कोडिंग + चैट)

  • बार-बार उपयोग होने वाले मॉडलों को VRAM में गर्म रखना

API उपयोग

चैट पूर्णता

circle-info

जोड़ें "stream": false स्ट्रीमिंग के बजाय पूरा उत्तर एक बार में प्राप्त करने के लिए।

OpenAI-संगत एंडपॉइंट

स्ट्रीमिंग

एम्बेडिंग्स

टेक्स्ट जनरेशन (नॉन-चैट)

पूर्ण API संदर्भ

सभी एंडपॉइंट दोनों के साथ काम करते हैं http://localhost:11434 (via SSH) और https://your-http-pub.clorecloud.net (बाहरी)।

मॉडल प्रबंधन

एंडपॉइंट
विधि
विवरण

/api/tags

GET

सभी डाउनलोड किए गए मॉडलों की सूची

/api/show

POST

मॉडल विवरण प्राप्त करें

/api/pull

POST

एक मॉडल डाउनलोड करें

/api/delete

DELETE

एक मॉडल हटाएं

/api/ps

GET

वर्तमान में चल रहे मॉडलों की सूची

/api/version

GET

Ollama संस्करण प्राप्त करें

मॉडल सूचीबद्ध करें

प्रतिक्रिया:

मॉडल विवरण दिखाएँ

API के माध्यम से मॉडल पुल करें

प्रतिक्रिया:

circle-exclamation

मॉडल हटाएँ

चल रहे मॉडलों की सूची

प्रतिक्रिया:

वर्ज़न प्राप्त करें

प्रतिक्रिया:

इनफेरेंस एंडपॉइंट्स

एंडपॉइंट
विधि
विवरण

एंडपॉइंट के साथ

POST

टेक्स्ट कम्पलीशन

और OpenAI-समर्थक एंडपॉइंट LLaVA के साथ

POST

चैट कम्पलीशन

/api/embeddings

POST

एंबेडिंग्स जनरेट करें (विरासत)

/api/embed

POST

एंबेडिंग्स जनरेट करें v0.6+ (बैच, OpenAI-संगत)

/v1/chat/completions

POST

OpenAI-संगत चैट

/v1/embeddings

POST

OpenAI-संगत एंबेडिंग्स

कस्टम मॉडल निर्माण

API के माध्यम से विशिष्ट सिस्टम प्रॉम्प्ट के साथ कस्टम मॉडल बनाएं:

GPU कॉन्फ़िगरेशन

GPU उपयोग की जांच करें

मल्टी-GPU

Ollama स्वचालित रूप से उपलब्ध GPUs का उपयोग करता है। विशिष्ट GPU के लिए:

मेमोरी प्रबंधन

कस्टम मॉडल (Modelfile)

सिस्टम प्रॉम्प्ट के साथ कस्टम मॉडलों का निर्माण करें:

सेवा के रूप में चलाना

Systemd

प्रदर्शन सुझाव

  1. उपयुक्त क्वांटाइज़ेशन का उपयोग करें

    • गति के लिए Q4_K_M

    • गुणवत्ता के लिए Q8_0

    • अधिकतम गुणवत्ता के लिए fp16

  2. मॉडल को VRAM के अनुसार मिलाएं

    • 8GB: 7B मॉडल (Q4)

    • 16GB: 13B मॉडल या 7B (Q8)

    • 24GB: 34B मॉडल (Q4)

    • 48GB+: 70B मॉडल

  3. मॉडल को लोडेड रखें

  4. तेज़ SSD प्रदर्शन में सुधार करता है

    • मॉडल लोडिंग और KV कैश को तेज़ स्टोरेज से लाभ होता है

    • NVMe SSD वाले सर्वर 2-3x बेहतर प्रदर्शन प्राप्त कर सकते हैं

बेंचमार्क्स

जनरेशन स्पीड (टोकन/सेकंड)

मॉडल
RTX 3060
RTX 3090
RTX 4090
A100 40GB

Llama 3.2 3B (Q4)

120

160

200

220

Llama 3.1 8B (Q4)

60

100

130

150

Llama 3.1 8B (Q8)

45

80

110

130

Mistral 7B (Q4)

70

110

140

160

Mixtral 8x7B (Q4)

-

35

55

75

Llama 3.1 70B (Q4)

-

-

18

35

DeepSeek-R1 7B (Q4)

65

105

135

155

DeepSeek-R1 32B (Q4)

-

-

22

42

Qwen2.5 72B (Q4)

-

-

15

30

Phi-4 14B (Q4)

-

50

75

90

बेंचमार्क जनवरी 2026 में अपडेट किए गए। वास्तविक गति सर्वर कॉन्फ़िगरेशन के आधार पर भिन्न हो सकती है।

पहले टोकन तक का समय (ms)

मॉडल
RTX 3090
RTX 4090
A100

3B

50

35

25

7-8B

120

80

60

13B

250

150

100

34B

600

350

200

70B

-

1200

500

कॉन्टेक्स्ट लंबाई बनाम VRAM (Q4)

मॉडल
2K संदर्भ
4K संदर्भ
8K संदर्भ
16K संदर्भ

7B

5GB

6GB

8GB

12GB

13B

8GB

10GB

14GB

22GB

34B

20GB

24GB

32GB

48GB

70B

40GB

48GB

64GB

96GB

GPU आवश्यकताएँ

मॉडल
Q4 VRAM
Q8 VRAM

3B

3GB

5GB

7-8B

5GB

9GB

13B

8GB

15GB

34B

20GB

38GB

70B

40GB

75GB

लागत अनुमान

सामान्य CLORE.AI मार्केटप्लेस दरें:

GPU
VRAM
प्राइस/दिन
उपयुक्त के लिए

RTX 3060

12GB

$0.15–0.30

7B मॉडल्स

RTX 3090

24GB

$0.30–1.00

13B-34B मॉडल

RTX 4090

24GB

$0.50–2.00

34B मॉडल, तेज़

A100

40GB

$1.50–3.00

70B मॉडल

मूल्य USD/दिन में हैं। दरें प्रदाता के अनुसार बदलती हैं — जांचें CLORE.AI मार्केटप्लेसarrow-up-right वर्तमान दरों के लिए।

समस्याओं का निवारण

मॉडल लोड नहीं होगा

धीमी जनरेशन

कनेक्शन रिफ्यूज़्ड

http_pub URL पर HTTP 502

इसका मतलब है कि सेवा अभी भी शुरू हो रही है। 30-60 सेकंड प्रतीक्षा करें और पुनः प्रयास करें:

अगले कदम

  • वेबUI खोलें - Ollama के लिए सुंदर चैट इंटरफ़ेस

  • vLLM - उच्च-थ्रूपुट प्रोडक्शन सर्विंग

  • DeepSeek-R1 - तर्क मॉडल

  • DeepSeek-V3 - सर्वश्रेष्ठ सामान्य मॉडल

  • Qwen2.5 - बहुभाषी विकल्प

  • Text Generation WebUI - उन्नत सुविधाएँ

Last updated

Was this helpful?