Ollama

Ollama के साथ लोकली LLMs चलाएँ Clore.ai GPUs पर

CLORE.AI GPUs पर स्थानीय रूप से LLMs चलाने का सबसे आसान तरीका।

वर्तमान संस्करण: v0.6+ — यह मार्गदर्शिका Ollama v0.6 और बाद के संस्करणों को कवर करती है। प्रमुख नए फीचर्स में संरचित आउटपुट (JSON स्कीमा प्रवर्तन), OpenAI-संगत एंबेडिंग एंडपॉइंट (/api/embed) और समवर्ती मॉडल लोडिंग (स्वैपिंग के बिना कई मॉडल एक साथ चलाना) शामिल हैं। देखें v0.6+ में नया विवरण के लिए।

सभी उदाहरण GPU सर्वरों पर चलाए जा सकते हैं जिन्हें द्वारा किराए पर लिया गया है CLORE.AI मार्केटप्लेस.

सर्वर आवश्यकताएँ

पैरामीटर

न्यूनतम

अनुशंसित

RAM

8GB

16GB+

VRAM

6GB

8GB+

नेटवर्क

100Mbps

500Mbps+

स्टार्टअप समय

~30 सेकंड

Ollama हल्का है और अधिकांश GPU सर्वरों पर काम करता है। बड़े मॉडलों (13B+) के लिए 16GB+ RAM और 12GB+ VRAM वाले सर्वर चुनें।

क्यों Ollama?

एक-कमान सेटअप - न तो Python, न ही निर्भरताएँ
मॉडल लाइब्रेरी - मॉडल डाउनलोड करें ollama pull
OpenAI-अनुकूल API - ड्रॉप-इन रिप्लेसमेंट
GPU एक्सेलेरेशन - स्वचालित CUDA पता लगाने
मल्टी-मॉडल - एक साथ कई मॉडल चलाएँ (v0.6+)

CLORE.AI पर त्वरित डिप्लॉय

Docker इमेज:

ollama/ollama

पोर्ट:

22/tcp
11434/http

कमांड:

ollama serve

जांचें कि यह काम कर रहा है

डिप्लॉयमेंट के बाद, अपना खोजें http_pub URL में मेरे ऑर्डर और परीक्षण करें:

# अपने वास्तविक http_pub URL से बदलें
curl https://your-http-pub.clorecloud.net/

# अपेक्षित प्रतिक्रिया: "Ollama is running"

यदि आपको HTTP 502 मिलता है, तो 30-60 सेकंड प्रतीक्षा करें - सर्विस अभी भी शुरू हो रही है।

अपनी सेवा तक पहुँचना

जब CLORE.AI पर परिनियोजित किया जाता है, तो अपने Ollama इंस्टेंस तक पहुँचें http_pub URL:

# अपना http_pub My Orders में पाएं, फिर:
curl https://your-http-pub.clorecloud.net/api/tags

# API कॉल्स के लिए, अपने http_pub URL का उपयोग करें:
# विज़न प्रश्नों के लिए यह काम नहीं करता:
  "model": "llama3.2",
  "messages": [{"role": "user", "content": "Hello!"}],
  "stream": false
}'

सभी localhost:11434 नीचे दिए गए उदाहरण SSH के माध्यम से कनेक्ट होने पर काम करते हैं। बाहरी पहुंच के लिए, इसे अपने साथ बदलें https://your-http-pub.clorecloud.net/ URL।

इंस्टॉलेशन

Docker का उपयोग (अनुशंसित)

docker run -d --gpus all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

मैनुअल इंस्टॉलेशन

curl -fsSL https://ollama.com/install.sh | sh

यह एकल कमान Ollama का नवीनतम संस्करण इंस्टॉल करता है, systemd सेवा सेट करता है, और GPU पता लगाने को स्वचालित रूप से कॉन्फ़िगर करता है। Ubuntu, Debian, Fedora और अधिकांश आधुनिक Linux वितरणों पर काम करता है।

मॉडल चलाना

पुल और रन

# मॉडल पुल करें
ollama pull llama3.2

# इंटरैक्टिव चैट चलाएँ
ollama run llama3.2

# प्रॉम्प्ट के साथ चलाएँ
ollama run llama3.2 "Explain quantum computing"

मॉडल वेरिएंट

# क्वांटाइज़ेशन वेरिएंट्स
ollama pull llama3.1:8b-instruct-q4_K_M   # 4-बिट (छोटा, तेज़)
ollama pull llama3.1:8b-instruct-q8_0     # 8-बिट (बेहतर गुणवत्ता)
ollama pull llama3.1:8b-instruct-fp16     # पूर्ण सटीकता

# आकार वेरिएंट्स
ollama pull llama3.1:8b    # 8 अरब पैरामीटर
ollama pull llama3.1:70b   # 70 अरब पैरामीटर

# नए मॉडल (v0.6+ युग)
ollama pull deepseek-r1:7b      # तर्क, बजट
ollama pull deepseek-r1:14b     # तर्क, कुशल
ollama pull deepseek-r1:32b     # तर्क, संतुलित
ollama pull deepseek-r1:70b     # तर्क, उच्च गुणवत्ता
ollama pull qwen2.5:72b         # सबसे बड़ा Qwen, शीर्ष गुणवत्ता
ollama pull phi4                # Microsoft Phi-4 14B

v0.6+ में नया

Ollama v0.6 ने प्रोडक्शन वर्कलोड के लिए कई प्रमुख सुविधाएँ पेश कीं:

संरचित आउटपुट (JSON स्कीमा)

मॉडल प्रतिक्रियाओं को किसी विशिष्ट JSON स्कीमा से मेल खाने के लिए मजबूर करें। उन एप्लिकेशन के लिए उपयोगी जो विश्वसनीय, पार्स करने योग्य आउटपुट की आवश्यकता होती है:

curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [{"role": "user", "content": "Tell me about Canada."}],
  "format": {
    "type": "object",
    "properties": {
      "name": {"type": "string"},
      "capital": {"type": "string"},
      "population": {"type": "integer"},
      "languages": {
        "type": "array",
        "items": {"type": "string"}
      }
    },
    "required": ["name", "capital", "population", "languages"]
  },
  "stream": false
}'

संरचित आउटपुट के साथ Python उदाहरण:

from openai import OpenAI
import json

client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")

response = client.chat.completions.create(
    model="llama3.2",
    messages=[{"role": "user", "content": "List 3 programming languages with their main use cases"}],
    response_format={
        "type": "json_schema",
        "json_schema": {
            "name": "languages",
            "schema": {
                "type": "object",
                "properties": {
                    "languages": {
                        "type": "array",
                        "items": {
                            "type": "object",
                            "properties": {
                                "name": {"type": "string"},
                                "use_case": {"type": "string"},
                                "popularity_rank": {"type": "integer"}
                            }
                        }
                    }
                }
            }
        }
    }
)

data = json.loads(response.choices[0].message.content)
print(data)

OpenAI-संगत एंबेडिंग एंडपॉइंट (`/api/embed`)

v0.6+ में नया: यह /api/embed एंडपॉइंट पूर्ण रूप से OpenAI-संगत है और बैच्ड इनपुट का समर्थन करता है:

# एकल टेक्स्ट एंबेडिंग
curl http://localhost:11434/api/embed -d '{
  "model": "nomic-embed-text",
  "input": "Hello world"
}'

# बैच एंबेडिंग्स (v0.6 में नया)
curl http://localhost:11434/api/embed -d '{
  "model": "nomic-embed-text",
  "input": ["First document", "Second document", "Third document"]
}'

OpenAI क्लाइंट सीधे काम करता है /v1/embeddings:

from openai import OpenAI
import numpy as np

client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")

# पहले एंबेडिंग मॉडल पुल करें: ollama pull nomic-embed-text
response = client.embeddings.create(
    model="nomic-embed-text",
    input=["Hello world", "Goodbye world"]
)

emb1 = np.array(response.data[0].embedding)
emb2 = np.array(response.data[1].embedding)

# कोसाइन समानता
similarity = np.dot(emb1, emb2) / (np.linalg.norm(emb1) * np.linalg.norm(emb2))
print(f"Similarity: {similarity:.4f}")

लोकप्रिय एंबेडिंग मॉडल:

ollama pull nomic-embed-text      # 137M, तेज़, अच्छी गुणवत्ता
ollama pull mxbai-embed-large     # 335M, उच्च गुणवत्ता
ollama pull all-minilm            # 23M, सबसे तेज़

समवर्ती मॉडल लोडिंग

v0.6 से पहले, Ollama एक मॉडल को अनलोड करता था ताकि दूसरा लोड किया जा सके। V0.6+ एक साथ कई मॉडल चलाने का समर्थन करता है, सीमित केवल उपलब्ध VRAM द्वारा:

# एक ही समय में दो मॉडल लोड करें
ollama run llama3.2 &
ollama run deepseek-r1:7b &

# देखिए क्या चल रहा है
curl http://localhost:11434/api/ps

सहकालन कॉन्फ़िगर करें:

# एक साथ अधिकतम 4 मॉडल की अनुमति दें
OLLAMA_MAX_LOADED_MODELS=4 ollama serve

# प्रत्येक रनर एक अलग प्रक्रिया में (बेहतर पृथक्करण)
OLLAMA_NUM_PARALLEL=2 ollama serve

यह विशेष रूप से उपयोगी है:

विभिन्न मॉडलों का A/B परीक्षण
विभिन्न कार्यों के लिए विशेषज्ञ मॉडल (कोडिंग + चैट)
बार-बार उपयोग होने वाले मॉडलों को VRAM में गर्म रखना

API उपयोग

चैट पूर्णता

# http_pub के माध्यम से (बाहरी पहुँच):
# विज़न प्रश्नों के लिए यह काम नहीं करता:
  "model": "llama3.2",
  "messages": [{"role": "user", "content": "Hello!"}],
  "stream": false
}'

# SSH टनल के माध्यम से (localhost):
curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [{"role": "user", "content": "Hello!"}],
  "stream": false
}'

जोड़ें "stream": false स्ट्रीमिंग के बजाय पूरा उत्तर एक बार में प्राप्त करने के लिए।

OpenAI-संगत एंडपॉइंट

from openai import OpenAI

# बाहरी पहुँच के लिए अपने http_pub URL का उपयोग करें:
client = OpenAI(
    base_url="https://your-http-pub.clorecloud.net/v1",
    api_key="ollama"  # कोई भी स्ट्रिंग काम करेगी
)

# या SSH टनल के माध्यम से:
# client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")

response = client.chat.completions.create(
    model="llama3.2",
    messages=[
        {"role": "user", "content": "What is machine learning?"}
    ]
)

print(response.choices[0].message.content)

स्ट्रीमिंग

stream = client.chat.completions.create(
    model="llama3.2",
    messages=[{"role": "user", "content": "Write a poem"}],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="")

एम्बेडिंग्स

# पुराने एंडपॉइंट (अभी भी काम करता है)
curl http://localhost:11434/api/embeddings -d '{
  "model": "nomic-embed-text",
  "prompt": "Hello world"
}'

# नया v0.6+ एंडपॉइंट (बैच समर्थन, OpenAI-संगत)
curl http://localhost:11434/api/embed -d '{
  "model": "nomic-embed-text",
  "input": ["Hello world", "Another text"]
}'

टेक्स्ट जनरेशन (नॉन-चैट)

curl https://your-http-pub.clorecloud.net/api/generate -d '{
  "model": "llama3.2",
  "prompt": "The meaning of life is",
  "stream": false
}'

पूर्ण API संदर्भ

सभी एंडपॉइंट दोनों के साथ काम करते हैं http://localhost:11434 (via SSH) और https://your-http-pub.clorecloud.net (बाहरी)।

मॉडल प्रबंधन

एंडपॉइंट

विधि

विवरण

/api/tags

GET

सभी डाउनलोड किए गए मॉडलों की सूची

/api/show

POST

मॉडल विवरण प्राप्त करें

/api/pull

POST

एक मॉडल डाउनलोड करें

/api/delete

DELETE

एक मॉडल हटाएं

/api/ps

GET

वर्तमान में चल रहे मॉडलों की सूची

/api/version

GET

Ollama संस्करण प्राप्त करें

मॉडल सूचीबद्ध करें

curl https://your-http-pub.clorecloud.net/api/tags

प्रतिक्रिया:

{
  "models": [
    {"name": "llama3.2:latest", "size": 2019393189, "digest": "...", "modified_at": "..."}
  ]
}

मॉडल विवरण दिखाएँ

curl https://your-http-pub.clorecloud.net/api/show -d '{"name": "llama3.2"}'

API के माध्यम से मॉडल पुल करें

curl https://your-http-pub.clorecloud.net/api/pull -d '{
  "name": "mistral:7b",
  "stream": false
}'

प्रतिक्रिया:

{"status": "success"}

बड़े मॉडलों को डाउनलोड करने में कई मिनट लग सकते हैं। बहुत बड़े मॉडलों (30GB+) के लिए SSH और CLI का उपयोग करने पर विचार करें: ollama pull model-name

मॉडल हटाएँ

curl -X DELETE https://your-http-pub.clorecloud.net/api/delete -d '{"name": "mistral:7b"}'

चल रहे मॉडलों की सूची

curl https://your-http-pub.clorecloud.net/api/ps

प्रतिक्रिया:

{
  "models": [
    {"name": "llama3.2:latest", "size": 2019393189, "expires_at": "2025-01-25T12:00:00Z"}
  ]
}

वर्ज़न प्राप्त करें

curl https://your-http-pub.clorecloud.net/api/version

प्रतिक्रिया:

{"version": "0.6.8"}

इनफेरेंस एंडपॉइंट्स

एंडपॉइंट

विधि

विवरण

एंडपॉइंट के साथ

POST

टेक्स्ट कम्पलीशन

और OpenAI-समर्थक एंडपॉइंट LLaVA के साथ

POST

चैट कम्पलीशन

/api/embeddings

POST

एंबेडिंग्स जनरेट करें (विरासत)

/api/embed

POST

एंबेडिंग्स जनरेट करें v0.6+ (बैच, OpenAI-संगत)

/v1/chat/completions

POST

OpenAI-संगत चैट

/v1/embeddings

POST

OpenAI-संगत एंबेडिंग्स

कस्टम मॉडल निर्माण

API के माध्यम से विशिष्ट सिस्टम प्रॉम्प्ट के साथ कस्टम मॉडल बनाएं:

curl https://your-http-pub.clorecloud.net/api/create -d '{
  "name": "my-assistant",
  "modelfile": "FROM llama3.2\nSYSTEM You are a helpful coding assistant."
}'

GPU कॉन्फ़िगरेशन

GPU उपयोग की जांच करें

# कंटेनर या सर्वर में
nvidia-smi

# Ollama लॉग्स में GPU दिखाता है
ollama run llama3.2 --verbose

मल्टी-GPU

Ollama स्वचालित रूप से उपलब्ध GPUs का उपयोग करता है। विशिष्ट GPU के लिए:

CUDA_VISIBLE_DEVICES=0 ollama serve

मेमोरी प्रबंधन

# GPU मेमोरी सीमा सेट करें
OLLAMA_GPU_MEMORY=8GiB ollama serve

# मॉडल को लोडेड रखें
OLLAMA_KEEP_ALIVE=24h ollama serve

# समवर्ती मॉडलों की अनुमति दें (v0.6+)
OLLAMA_MAX_LOADED_MODELS=3 ollama serve

कस्टम मॉडल (Modelfile)

सिस्टम प्रॉम्प्ट के साथ कस्टम मॉडलों का निर्माण करें:

# Modelfile
FROM llama3.2

SYSTEM You are a helpful coding assistant. Always provide code examples.

PARAMETER temperature 0.7
PARAMETER top_p 0.9

ollama create coding-assistant -f Modelfile
ollama run coding-assistant

सेवा के रूप में चलाना

Systemd

# /etc/systemd/system/ollama.service
[Unit]
Description=Ollama Service
After=network.target

[Service]
Type=simple
ExecStart=/usr/local/bin/ollama serve
Restart=always
Environment="OLLAMA_HOST=0.0.0.0"

[Install]
WantedBy=multi-user.target

systemctl enable ollama
systemctl start ollama

प्रदर्शन सुझाव

उपयुक्त क्वांटाइज़ेशन का उपयोग करें
- गति के लिए Q4_K_M
- गुणवत्ता के लिए Q8_0
- अधिकतम गुणवत्ता के लिए fp16
मॉडल को VRAM के अनुसार मिलाएं
- 8GB: 7B मॉडल (Q4)
- 16GB: 13B मॉडल या 7B (Q8)
- 24GB: 34B मॉडल (Q4)
- 48GB+: 70B मॉडल
मॉडल को लोडेड रखें
```
OLLAMA_KEEP_ALIVE=1h ollama serve
```
तेज़ SSD प्रदर्शन में सुधार करता है
- मॉडल लोडिंग और KV कैश को तेज़ स्टोरेज से लाभ होता है
- NVMe SSD वाले सर्वर 2-3x बेहतर प्रदर्शन प्राप्त कर सकते हैं

बेंचमार्क्स

जनरेशन स्पीड (टोकन/सेकंड)

मॉडल

RTX 3060

RTX 3090

RTX 4090

A100 40GB

Llama 3.2 3B (Q4)

120

160

200

220

Llama 3.1 8B (Q4)

100

130

150

Llama 3.1 8B (Q8)

110

130

Mistral 7B (Q4)

110

140

160

Mixtral 8x7B (Q4)

Llama 3.1 70B (Q4)

DeepSeek-R1 7B (Q4)

105

135

155

DeepSeek-R1 32B (Q4)

Qwen2.5 72B (Q4)

Phi-4 14B (Q4)

बेंचमार्क जनवरी 2026 में अपडेट किए गए। वास्तविक गति सर्वर कॉन्फ़िगरेशन के आधार पर भिन्न हो सकती है।

पहले टोकन तक का समय (ms)

मॉडल

RTX 3090

RTX 4090

A100

7-8B

120

13B

250

150

100

34B

600

350

200

70B

1200

500

कॉन्टेक्स्ट लंबाई बनाम VRAM (Q4)

मॉडल

2K संदर्भ

4K संदर्भ

8K संदर्भ

16K संदर्भ

5GB

6GB

8GB

12GB

13B

8GB

10GB

14GB

22GB

34B

20GB

24GB

32GB

48GB

70B

40GB

48GB

64GB

96GB

GPU आवश्यकताएँ

मॉडल

Q4 VRAM

Q8 VRAM

3GB

5GB

7-8B

5GB

9GB

13B

8GB

15GB

34B

20GB

38GB

70B

40GB

75GB

लागत अनुमान

सामान्य CLORE.AI मार्केटप्लेस दरें:

GPU

VRAM

प्राइस/दिन

उपयुक्त के लिए

RTX 3060

12GB

$0.15–0.30

7B मॉडल्स

RTX 3090

24GB

$0.30–1.00

13B-34B मॉडल

RTX 4090

24GB

$0.50–2.00

34B मॉडल, तेज़

A100

40GB

$1.50–3.00

70B मॉडल

मूल्य USD/दिन में हैं। दरें प्रदाता के अनुसार बदलती हैं — जांचें CLORE.AI मार्केटप्लेस वर्तमान दरों के लिए।

समस्याओं का निवारण

मॉडल लोड नहीं होगा

# उपलब्ध मेमोरी जांचें
nvidia-smi

# छोटे क्वांटाइज़ेशन का प्रयास करें
ollama pull llama3.1:8b-q4_0

धीमी जनरेशन

# जाँचें कि GPU उपयोग में है या नहीं
ollama run llama3.2 --verbose

# सुनिश्चित करें कि CUDA उपलब्ध है
nvidia-smi

कनेक्शन रिफ्यूज़्ड

# सुनिश्चित करें कि सर्वर चल रहा है
ollama serve

# जाँचें कि सभी इंटरफेस पर बाइंड कर रहा है या नहीं
OLLAMA_HOST=0.0.0.0 ollama serve

http_pub URL पर HTTP 502

इसका मतलब है कि सेवा अभी भी शुरू हो रही है। 30-60 सेकंड प्रतीक्षा करें और पुनः प्रयास करें:

# जाँचें कि सेवा तैयार है या नहीं
curl https://your-http-pub.clorecloud.net/

# अपेक्षित: "Ollama is running"
# यदि 502: प्रतीक्षा करें और पुनः प्रयास करें

अगले कदम

वेबUI खोलें - Ollama के लिए सुंदर चैट इंटरफ़ेस
vLLM - उच्च-थ्रूपुट प्रोडक्शन सर्विंग
DeepSeek-R1 - तर्क मॉडल
DeepSeek-V3 - सर्वश्रेष्ठ सामान्य मॉडल
Qwen2.5 - बहुभाषी विकल्प
Text Generation WebUI - उन्नत सुविधाएँ

Previousअवलोकन NextOpen WebUI

Last updated 21 days ago

Was this helpful?

hashtagसर्वर आवश्यकताएँ

hashtagक्यों Ollama?

hashtagCLORE.AI पर त्वरित डिप्लॉय

hashtagजांचें कि यह काम कर रहा है

hashtagअपनी सेवा तक पहुँचना

hashtagइंस्टॉलेशन

hashtagDocker का उपयोग (अनुशंसित)

hashtagमैनुअल इंस्टॉलेशन

hashtagमॉडल चलाना

hashtagपुल और रन

hashtagलोकप्रिय मॉडल

hashtagमॉडल वेरिएंट

hashtagv0.6+ में नया

hashtagसंरचित आउटपुट (JSON स्कीमा)

hashtagOpenAI-संगत एंबेडिंग एंडपॉइंट (/api/embed)

hashtagसमवर्ती मॉडल लोडिंग

hashtagAPI उपयोग

hashtagचैट पूर्णता

hashtagOpenAI-संगत एंडपॉइंट

hashtagस्ट्रीमिंग

hashtagएम्बेडिंग्स

hashtagटेक्स्ट जनरेशन (नॉन-चैट)

hashtagपूर्ण API संदर्भ

hashtagमॉडल प्रबंधन

hashtagमॉडल सूचीबद्ध करें

hashtagमॉडल विवरण दिखाएँ

hashtagAPI के माध्यम से मॉडल पुल करें

hashtagमॉडल हटाएँ

hashtagचल रहे मॉडलों की सूची

hashtagवर्ज़न प्राप्त करें

hashtagइनफेरेंस एंडपॉइंट्स

hashtagकस्टम मॉडल निर्माण

hashtagGPU कॉन्फ़िगरेशन

hashtagGPU उपयोग की जांच करें

hashtagमल्टी-GPU

hashtagमेमोरी प्रबंधन

hashtagकस्टम मॉडल (Modelfile)

hashtagसेवा के रूप में चलाना

hashtagSystemd

hashtagप्रदर्शन सुझाव

hashtagबेंचमार्क्स

hashtagजनरेशन स्पीड (टोकन/सेकंड)

hashtagपहले टोकन तक का समय (ms)

hashtagकॉन्टेक्स्ट लंबाई बनाम VRAM (Q4)

hashtagGPU आवश्यकताएँ

hashtagलागत अनुमान

hashtagसमस्याओं का निवारण

hashtagमॉडल लोड नहीं होगा

hashtagधीमी जनरेशन

hashtagकनेक्शन रिफ्यूज़्ड

hashtaghttp_pub URL पर HTTP 502

hashtagअगले कदम

सर्वर आवश्यकताएँ

क्यों Ollama?

CLORE.AI पर त्वरित डिप्लॉय

जांचें कि यह काम कर रहा है

अपनी सेवा तक पहुँचना

इंस्टॉलेशन

Docker का उपयोग (अनुशंसित)

मैनुअल इंस्टॉलेशन

मॉडल चलाना

पुल और रन

लोकप्रिय मॉडल

मॉडल वेरिएंट

v0.6+ में नया

संरचित आउटपुट (JSON स्कीमा)

OpenAI-संगत एंबेडिंग एंडपॉइंट (`/api/embed`)

समवर्ती मॉडल लोडिंग

API उपयोग

चैट पूर्णता

OpenAI-संगत एंडपॉइंट

स्ट्रीमिंग

एम्बेडिंग्स

टेक्स्ट जनरेशन (नॉन-चैट)

पूर्ण API संदर्भ

मॉडल प्रबंधन

मॉडल सूचीबद्ध करें

मॉडल विवरण दिखाएँ

API के माध्यम से मॉडल पुल करें

मॉडल हटाएँ

चल रहे मॉडलों की सूची

वर्ज़न प्राप्त करें

इनफेरेंस एंडपॉइंट्स

कस्टम मॉडल निर्माण

GPU कॉन्फ़िगरेशन

GPU उपयोग की जांच करें

मल्टी-GPU

मेमोरी प्रबंधन

कस्टम मॉडल (Modelfile)

सेवा के रूप में चलाना

Systemd

प्रदर्शन सुझाव

बेंचमार्क्स

जनरेशन स्पीड (टोकन/सेकंड)

पहले टोकन तक का समय (ms)

कॉन्टेक्स्ट लंबाई बनाम VRAM (Q4)

GPU आवश्यकताएँ

लागत अनुमान

समस्याओं का निवारण

मॉडल लोड नहीं होगा

धीमी जनरेशन

कनेक्शन रिफ्यूज़्ड

http_pub URL पर HTTP 502

अगले कदम