> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-hi/comparisons/llm-serving-comparison.md).

# LLM Serving: Ollama बनाम vLLM बनाम TGI

CLORE.AI पर अपनी आवश्यकताओं के लिए सही LLM सर्विंग समाधान चुनें।

{% hint style="success" %}
सभी विकल्प उपलब्ध हैं [CLORE.AI मार्केटप्लेस](https://clore.ai/marketplace).
{% endhint %}

{% hint style="info" %}
**2025 अपडेट:** SGLang एक शीर्ष-स्तरीय फ्रेमवर्क के रूप में उभरा है, अक्सर **थ्रूपुट और TTFT बेंचमार्क में vLLM से बेहतर प्रदर्शन** करता है। उत्पादन वर्कलोड के लिए vLLM v0.7 और SGLang v0.4 दोनों की सिफारिश की जाती है।
{% endhint %}

## त्वरित निर्णय मार्गदर्शिका

| उपयोग का मामला                   | बेस्ट चॉइस             | क्यों                                  |
| -------------------------------- | ---------------------- | -------------------------------------- |
| त्वरित परीक्षण और चैट            | **Ollama**             | सबसे आसान सेटअप, सबसे तेज़ स्टार्टअप   |
| उत्पादन API (अधिकतम थ्रूपुट)     | **SGLang** या **vLLM** | 2025 में सबसे उच्च थ्रूपुट             |
| रीज़निंग मॉडल (DeepSeek-R1)      | **SGLang**             | रीज़निंग चेन के लिए सर्वश्रेष्ठ समर्थन |
| HuggingFace एकीकरण               | **TGI**                | देशी HF समर्थन                         |
| स्थानीय विकास                    | **Ollama**             | हर जगह काम करता है                     |
| उच्च समवर्तीता                   | **SGLang** या **vLLM** | निरंतर बैचिंग                          |
| मल्टी-मोडल (TTS, STT, एम्बेडिंग) | **LocalAI**            | ऑल-इन-वन समाधान                        |
| स्ट्रीमिंग ऐप्स                  | **vLLM** या **SGLang** | दोनों उत्कृष्ट                         |

## स्टार्टअप समय तुलना

| समाधान  | सामान्य स्टार्टअप | नोट्स                      |
| ------- | ----------------- | -------------------------- |
| Ollama  | 30-60 सेकंड       | सबसे तेज़, हल्का           |
| SGLang  | 3-8 मिनट          | HF से मॉडल डाउनलोड करता है |
| vLLM    | 5-15 मिनट         | HF से मॉडल डाउनलोड करता है |
| TGI     | 3-10 मिनट         | HF से मॉडल डाउनलोड करता है |
| LocalAI | 5-10 मिनट         | कई मॉडल प्रीलोड करता है    |

{% hint style="info" %}
स्टार्टअप के दौरान HTTP 502 त्रुटियाँ सामान्य हैं - सेवा अभी भी इनिशियलाइज़ हो रही है।
{% endhint %}

***

## ओवरव्यू तुलना

| फ़ीचर              | Ollama         | vLLM       | SGLang             | TGI                   | LocalAI          |
| ------------------ | -------------- | ---------- | ------------------ | --------------------- | ---------------- |
| **सेटअप की सरलता** | ⭐⭐⭐⭐⭐          | ⭐⭐⭐        | ⭐⭐⭐                | ⭐⭐⭐                   | ⭐⭐⭐⭐             |
| **प्रदर्शन**       | ⭐⭐⭐            | ⭐⭐⭐⭐⭐      | ⭐⭐⭐⭐⭐              | ⭐⭐⭐⭐                  | ⭐⭐⭐              |
| **मॉडल समर्थन**    | ⭐⭐⭐⭐           | ⭐⭐⭐⭐⭐      | ⭐⭐⭐⭐⭐              | ⭐⭐⭐⭐                  | ⭐⭐⭐⭐             |
| **API अनुकूलता**   | कस्टम + OpenAI | OpenAI     | OpenAI             | कस्टम + OpenAI        | OpenAI           |
| **मल्टी-GPU**      | सीमित          | उत्कृष्ट   | उत्कृष्ट           | अच्छा                 | सीमित            |
| **मेमोरी दक्षता**  | अच्छा          | उत्कृष्ट   | उत्कृष्ट           | बहुत अच्छा            | अच्छा            |
| **मल्टी-मोडल**     | केवल विज़न     | केवल विज़न | केवल विज़न         | नहीं                  | TTS, STT, एम्बेड |
| **स्टार्टअप समय**  | 30 सेकंड       | 5-15 मिनट  | 3-8 मिनट           | 3-10 मिनट             | 5-10 मिनट        |
| **रीज़निंग मॉडल**  | सीमित          | अच्छा      | उत्कृष्ट           | अच्छा                 | सीमित            |
| **उत्तम हेतु**     | विकास          | प्रोडक्शन  | उत्पादन + रीज़निंग | HF पारिस्थितिकी तंत्र | मल्टी-मोडल       |

***

## 2025 बेंचमार्क: DeepSeek-R1-32B

### TTFT, TPOT और थ्रूपुट (A100 80GB, batch=32, input=512, output=512)

| फ्रेमवर्क       | TTFT (मिस) | TPOT (मिस/टोक) | थ्रूपुट (टोक/सेक) | नोट्स                        |
| --------------- | ---------- | -------------- | ----------------- | ---------------------------- |
| **SGLang v0.4** | **180**    | **14**         | **2,850**         | 2025 में सर्वश्रेष्ठ समग्र   |
| **vLLM v0.7**   | 240        | 17             | 2,400             | उत्कृष्ट, SGLang के पास निकट |
| llama.cpp       | 420        | 28             | 1,100             | CPU+GPU, क्वांटाइज़्ड        |
| Ollama          | 510        | 35             | 820               | उपयोग में आसानी प्राथमिकता   |

> **TTFT** = पहला टोकन आने का समय (लेटेंसी). **TPOT** = प्रति आउटपुट टोकन का समय। दोनों के लिए कम बेहतर है।

### थ्रूपुट तुलना (RTX 4090, Llama 3.1 8B, 10 समवर्ती उपयोगकर्ता)

| फ्रेमवर्क   | टोकन/सेकंड | समवर्ती उपयोगकर्ता | नोट्स                  |
| ----------- | ---------- | ------------------ | ---------------------- |
| SGLang v0.4 | 920        | 20-30              | Radix attention कैशिंग |
| vLLM v0.7   | 870        | 20-30              | PagedAttention         |
| TGI         | 550        | 10-20              |                        |
| Ollama      | 160\*      | —                  | डिफ़ॉल्ट रूप से क्रमिक |

\*Ollama अनुरोधों को डिफ़ॉल्ट रूप से क्रमिक रूप से सर्व करता है

***

## SGLang

### अवलोकन

SGLang (Structured Generation Language) एक उच्च-थ्रूपुट LLM सर्विंग फ्रेमवर्क है जिसे UC Berkeley और LMSYS के शोधकर्ताओं ने विकसित किया है। 2025 के बेंचमार्क में यह अक्सर vLLM से मेल खाता है या उसे पार कर जाता है — खासकर DeepSeek-R1 जैसे रीज़निंग मॉडलों के लिए।

### फायदे

* ✅ 2025 बेंचमार्क में अक्सर सबसे तेज़ TTFT और थ्रूपुट
* ✅ कुशल KV-cache पुन:प्रयोग के लिए Radix attention
* ✅ रीज़निंग मॉडलों (DeepSeek-R1, QwQ) के लिए उत्कृष्ट समर्थन
* ✅ OpenAI-अनुकूल API
* ✅ निरंतर बैचिंग और प्रीफिक्स कैशिंग
* ✅ अनुमानात्मक डिकोडिंग समर्थन
* ✅ मल्टी-GPU टेंसर पैराललिज़्म

### नुकसान

* ❌ नया पारिस्थितिकी तंत्र, vLLM की तुलना में कम सामुदायिक संसाधन
* ❌ Ollama की तुलना में अधिक जटिल सेटअप
* ❌ केवल Linux

### त्वरित प्रारम्भ

```bash
pip install sglang[all]

# एक मॉडल सर्व करें
python -m sglang.launch_server \
    --model-path meta-llama/Llama-3.1-8B-Instruct \
    --host 0.0.0.0 \
    --port 8000
```

### SGLang के साथ DeepSeek-R1

```bash
python -m sglang.launch_server \
    --model-path deepseek-ai/DeepSeek-R1-Distill-Qwen-32B \
    --host 0.0.0.0 \
    --port 8000 \
    --tp 2 \
    --reasoning-parser deepseek-r1
```

### API उपयोग

```python
from openai import OpenAI

client = OpenAI(base_url='http://localhost:8000/v1', api_key='dummy')

response = client.chat.completions.create(
    model='meta-llama/Llama-3.1-8B-Instruct',
    messages=[
        {'role': 'user', 'content': 'Explain quantum entanglement'}
    ],
    temperature=0.7,
    max_tokens=512
)
print(response.choices[0].message.content)
```

### मल्टी-GPU

```bash
# 2 GPUs (टेंसर पैरालल)
python -m sglang.launch_server \
    --model-path meta-llama/Llama-3.1-70B-Instruct \
    --host 0.0.0.0 \
    --port 8000 \
    --tp 2
```

### उत्तम हेतु

* 🎯 अधिकतम थ्रूपुट वाले उत्पादन APIs
* 🎯 रीज़निंग मॉडल (DeepSeek-R1, QwQ, o1-शैली)
* 🎯 कम-लेटेंसी (TTFT) एप्लिकेशन
* 🎯 प्रीफिक्स-भारी वर्कलोड (उच्च KV-cache पुन:प्रयोग)

***

## Ollama

### अवलोकन

Ollama LLMs को लोकली चलाने का सबसे आसान तरीका है। विकास, परीक्षण और व्यक्तिगत उपयोग के लिए परफेक्ट।

### फायदे

* ✅ एक-कमांड इंस्टॉल और रन
* ✅ बिल्ट-इन मॉडल लाइब्रेरी
* ✅ शानदार CLI अनुभव
* ✅ Mac, Linux, Windows पर काम करता है
* ✅ स्वचालित क्वांटाइज़ेशन
* ✅ कम संसाधन ओवरहेड

### नुकसान

* ❌ विकल्पों की तुलना में कम थ्रूपुट
* ❌ सीमित मल्टी-GPU समर्थन
* ❌ कम उत्पादन-तैयार
* ❌ कम अनुकूलन विकल्प

### त्वरित प्रारम्भ

```bash
# इंस्टॉल करें
curl -fsSL https://ollama.com/install.sh | sh

# किसी भी मॉडल को चलाएँ
ollama run llama3.2
ollama run mistral
ollama run codellama

# API सर्व करें
ollama serve
```

### API उपयोग

```python
import requests

# जनरेट करें
response = requests.post('http://localhost:11434/api/generate', json={
    'model': 'llama3.2',
    'prompt': 'Explain quantum computing',
    'stream': False
})
print(response.json()['response'])

# चैट
response = requests.post('http://localhost:11434/api/chat', json={
    'model': 'llama3.2',
    'messages': [
        {'role': 'user', 'content': 'Hello!'}
    ]
})
```

### OpenAI अनुकूलता

```python
from openai import OpenAI

client = OpenAI(base_url='http://localhost:11434/v1', api_key='ollama')

response = client.chat.completions.create(
    model='llama3.2',
    messages=[{'role': 'user', 'content': 'Hello!'}]
)
```

### प्रदर्शन

| मॉडल          | GPU       | टोकन/सेकंड |
| ------------- | --------- | ---------- |
| Llama 3.2 3B  | RTX 3060  | 45-55      |
| Llama 3.1 8B  | RTX 3090  | 35-45      |
| Llama 3.1 70B | A100 40GB | 15-20      |

### उत्तम हेतु

* 🎯 त्वरित प्रोटोटाइपिंग
* 🎯 व्यक्तिगत AI सहायक
* 🎯 सीखना और प्रयोग
* 🎯 सरल परिनियोजन

***

## vLLM

### अवलोकन

vLLM एक battle-tested उच्च-थ्रूपुट LLM इन्फ़रेंस इंजन है उत्पादन के लिए। v0.7 (2025) बेहतर प्रदर्शन, बेहतर क्वांटाइज़ेशन समर्थन, और नए अनुमानात्मक डिकोडिंग विकल्प लाता है।

### फायदे

* ✅ सबसे उच्च थ्रूपुट (निरंतर बैचिंग + PagedAttention)
* ✅ कुशल मेमोरी के लिए PagedAttention
* ✅ उत्कृष्ट मल्टी-GPU समर्थन
* ✅ OpenAI-अनुकूल API
* ✅ उत्पादन-तैयार, बड़ा समुदाय
* ✅ कई क्वांटाइज़ेशन फॉर्मैट्स का समर्थन (AWQ, GPTQ, FP8)
* ✅ v0.7 में अनुमानात्मक डिकोडिंग

### नुकसान

* ❌ अधिक जटिल सेटअप
* ❌ शुरुआत में अधिक मेमोरी ओवरहेड
* ❌ केवल Linux (कोई देशी Windows/Mac नहीं)
* ❌ अधिक कॉन्फ़िगरेशन की आवश्यकता

### त्वरित प्रारम्भ

```bash
pip install vllm

# मॉडल सर्व करें (vLLM v0.7)
python -m vllm.entrypoints.openai.api_server \
    --model meta-llama/Llama-3.1-8B-Instruct \
    --host 0.0.0.0 \
    --port 8000
```

### Docker डिप्लॉय

```bash
docker run --gpus all -p 8000:8000 \
    vllm/vllm-openai:v0.7.0 \
    --model meta-llama/Llama-3.1-8B-Instruct
```

### API उपयोग

```python
from openai import OpenAI

client = OpenAI(base_url='http://localhost:8000/v1', api_key='dummy')

# चैट पूर्णता
response = client.chat.completions.create(
    model='meta-llama/Llama-3.1-8B-Instruct',
    messages=[
        {'role': 'system', 'content': 'You are helpful.'},
        {'role': 'user', 'content': 'Write a haiku about coding'}
    ],
    temperature=0.7,
    max_tokens=100
)

# स्ट्रीमिंग
stream = client.chat.completions.create(
    model='meta-llama/Llama-3.1-8B-Instruct',
    messages=[{'role': 'user', 'content': 'Tell me a story'}],
    stream=True
)
for chunk in stream:
    print(chunk.choices[0].delta.content, end='')
```

### मल्टी-GPU

```bash
# 2 GPUs
python -m vllm.entrypoints.openai.api_server \
    --model meta-llama/Llama-3.1-70B-Instruct \
    --tensor-parallel-size 2

# 4 GPUs
python -m vllm.entrypoints.openai.api_server \
    --model meta-llama/Llama-3.1-70B-Instruct \
    --tensor-parallel-size 4
```

### प्रदर्शन

| मॉडल          | GPU       | टोकन/सेकंड | समवर्ती उपयोगकर्ता |
| ------------- | --------- | ---------- | ------------------ |
| Llama 3.1 8B  | RTX 3090  | 80-100     | 10-20              |
| Llama 3.1 8B  | RTX 4090  | 120-150    | 20-30              |
| Llama 3.1 70B | A100 40GB | 25-35      | 5-10               |
| Llama 3.1 70B | 2x A100   | 50-70      | 15-25              |

### उत्तम हेतु

* 🎯 बड़े समुदाय के साथ उत्पादन APIs
* 🎯 उच्च-ट्रैफ़िक एप्लिकेशन
* 🎯 मल्टी-यूज़र चैट सेवाएँ
* 🎯 अधिकतम थ्रूपुट आवश्यकताएँ

***

## Text Generation Inference (TGI)

### अवलोकन

HuggingFace का उत्पादन सर्वर, HF इकोसिस्टम के साथ घनिष्ठ रूप से एकीकृत।

### फायदे

* ✅ देशी HuggingFace एकीकरण
* ✅ HF मॉडलों के लिए शानदार
* ✅ अच्छा मल्टी-GPU समर्थन
* ✅ बिल्ट-इन सुरक्षा सुविधाएँ
* ✅ Prometheus मेट्रिक्स
* ✅ अच्छी तरह प्रलेखित

### नुकसान

* ❌ vLLM/SGLang की तुलना में थोड़ा कम थ्रूपुट
* ❌ अधिक संसाधन-गहन
* ❌ जटिल कॉन्फ़िगरेशन
* ❌ लंबा स्टार्टअप समय

### त्वरित प्रारम्भ

```bash
# Docker (अनुशंसित)
docker run --gpus all -p 8080:80 \
    ghcr.io/huggingface/text-generation-inference:latest \
    --model-id meta-llama/Llama-3.1-8B-Instruct

# गेटेड मॉडलों के लिए HF टोकन के साथ
docker run --gpus all -p 8080:80 \
    -e HUGGING_FACE_HUB_TOKEN=$HF_TOKEN \
    ghcr.io/huggingface/text-generation-inference:latest \
    --model-id meta-llama/Llama-3.1-8B-Instruct
```

### प्रदर्शन

| मॉडल          | GPU       | टोकन/सेकंड | समवर्ती उपयोगकर्ता |
| ------------- | --------- | ---------- | ------------------ |
| Llama 3.1 8B  | RTX 3090  | 60-80      | 8-15               |
| Llama 3.1 8B  | RTX 4090  | 90-120     | 15-25              |
| Llama 3.1 70B | A100 40GB | 20-30      | 3-8                |

### उत्तम हेतु

* 🎯 HuggingFace मॉडल उपयोगकर्ता
* 🎯 अनुसंधान पर्यावरण
* 🎯 बिल्ट-इन सुरक्षा सुविधाओं की ज़रूरत
* 🎯 Prometheus निगरानी की ज़रूरत

***

## LocalAI

### अवलोकन

LocalAI एक OpenAI-अनुकूल API है जो कई मोडैलिटीज़ का समर्थन करता है: LLMs, TTS, STT, एम्बेडिंग और इमेज जनरेशन।

### फायदे

* ✅ मल्टी-मोडल समर्थन (LLM, TTS, STT, एम्बेडिंग)
* ✅ ड्राप-इन OpenAI प्रतिस्थापन
* ✅ प्री-बिल्ट मॉडल उपलब्ध
* ✅ GGUF मॉडलों का समर्थन
* ✅ रीरैंकिंग समर्थन
* ✅ Swagger UI प्रलेखन

### नुकसान

* ❌ लंबा स्टार्टअप समय (5-10 मिनट)
* ❌ vLLM/SGLang की तुलना में कम LLM थ्रूपुट
* ❌ इमेज जनरेशन में CUDA समस्याएँ आ सकती हैं
* ❌ शुद्ध LLM उपयोग के लिए अधिक जटिल

### त्वरित प्रारम्भ

```bash
docker run --gpus all -p 8080:8080 localai/localai:master-aio-gpu-nvidia-cuda-12
```

### API उपयोग

```python
from openai import OpenAI

client = OpenAI(base_url='http://localhost:8080/v1', api_key='dummy')

# चैट
response = client.chat.completions.create(
    model='gpt-4',
    messages=[{'role': 'user', 'content': 'Hello!'}]
)

# TTS
audio = client.audio.speech.create(model='tts-1', input='Hello world', voice='alloy')

# STT
transcript = client.audio.transcriptions.create(model='whisper-1', file=open('audio.mp3', 'rb'))

# एम्बेडिंग्स
embeddings = client.embeddings.create(model='text-embedding-ada-002', input='Hello world')
```

### उत्तम हेतु

* 🎯 कई मोडैलिटीज़ की ज़रूरत (TTS, STT, LLM)
* 🎯 OpenAI API अनुकूलता चाहते हैं
* 🎯 GGUF मॉडल चला रहे हैं
* 🎯 दस्तावेज़ रीरैंकिंग वर्कफ़्लोज़

***

## प्रदर्शन तुलना (2025)

### थ्रूपुट (टोकन/सेकंड) — एकल उपयोगकर्ता

| मॉडल                      | Ollama | vLLM v0.7 | SGLang v0.4 | TGI |
| ------------------------- | ------ | --------- | ----------- | --- |
| Llama 3.1 8B (RTX 3090)   | 40     | 90        | 100         | 70  |
| Llama 3.1 8B (RTX 4090)   | 65     | 140       | 160         | 110 |
| Llama 3.1 70B (A100 40GB) | 18     | 30        | 35          | 25  |

### थ्रूपुट — एकाधिक उपयोगकर्ता (10 समवर्ती)

| मॉडल                      | Ollama | vLLM v0.7 | SGLang v0.4 | TGI |
| ------------------------- | ------ | --------- | ----------- | --- |
| Llama 3.1 8B (RTX 4090)   | 150\*  | 800       | 920         | 500 |
| Llama 3.1 70B (A100 40GB) | 50\*   | 200       | 240         | 150 |

\*Ollama डिफ़ॉल्ट रूप से क्रमिक रूप से सर्व करता है

### मेमोरी उपयोग

| मॉडल               | Ollama | vLLM v0.7 | SGLang v0.4 | TGI  |
| ------------------ | ------ | --------- | ----------- | ---- |
| Llama 3.1 8B       | 5GB    | 6GB       | 6GB         | 7GB  |
| Llama 3.1 70B (Q4) | 38GB   | 40GB      | 39GB        | 42GB |

### पहले टोकन का समय (TTFT) — DeepSeek-R1-32B

| फ्रेमवर्क   | TTFT (A100 80GB) | TPOT (मिस/टोक) |
| ----------- | ---------------- | -------------- |
| SGLang v0.4 | **180ms**        | **14ms**       |
| vLLM v0.7   | 240ms            | 17ms           |
| llama.cpp   | 420ms            | 28ms           |
| Ollama      | 510ms            | 35ms           |

***

## फीचर तुलना

| फ़ीचर                | Ollama | vLLM v0.7      | SGLang v0.4    | TGI               | LocalAI    |
| -------------------- | ------ | -------------- | -------------- | ----------------- | ---------- |
| OpenAI API           | ✅      | ✅              | ✅              | ✅                 | ✅          |
| स्ट्रीमिंग           | ✅      | ✅              | ✅              | ✅                 | ✅          |
| बॅचिंग               | बेसिक  | निरंतर         | निरंतर         | डायनामिक          | बेसिक      |
| मल्टी-GPU            | सीमित  | उत्कृष्ट       | उत्कृष्ट       | अच्छा             | सीमित      |
| क्वांटाइज़ेशन        | GGUF   | AWQ, GPTQ, FP8 | AWQ, GPTQ, FP8 | bitsandbytes, AWQ | GGUF       |
| LoRA                 | ✅      | ✅              | ✅              | ✅                 | ✅          |
| अनुमानात्मक डिकोडिंग | ❌      | ✅              | ✅              | ✅                 | ❌          |
| प्रीफिक्स कैशिंग     | ❌      | ✅              | ✅ (Radix)      | ✅                 | ❌          |
| रीज़निंग मॉडल        | सीमित  | अच्छा          | उत्कृष्ट       | अच्छा             | सीमित      |
| मेट्रिक्स            | बेसिक  | Prometheus     | Prometheus     | Prometheus        | Prometheus |
| फंक्शन कॉलिंग        | ✅      | ✅              | ✅              | ✅                 | ✅          |
| विजन मॉडल            | ✅      | ✅              | ✅              | ✅                 | सीमित      |
| TTS                  | ❌      | ❌              | ❌              | ❌                 | ✅          |
| STT                  | ❌      | ❌              | ❌              | ❌                 | ✅          |
| एम्बेडिंग्स          | ✅      | सीमित          | सीमित          | सीमित             | ✅          |

***

## कब क्या उपयोग करें

### Ollama का उपयोग तब करें:

* आप 5 मिनट में शुरू करना चाहते हैं
* आप प्रोटोटाइपिंग या सीख रहे हैं
* आपको व्यक्तिगत AI सहायक चाहिए
* आप Mac या Windows पर हैं
* सरलता गति से अधिक मायने रखती है

### SGLang का उपयोग तब करें:

* आपको चाहिए **सबसे कम लेटेंसी** (TTFT)
* आप सर्व कर रहे हैं **रीज़निंग मॉडल** (DeepSeek-R1, QwQ, o1-शैली)
* आपके पास वर्कलोड हैं जिनमें भारी **प्रीफिक्स शेयरिंग** (RAG, सिस्टम प्रॉम्प्ट)
* आपको 2025 बेंचमार्क में शीर्ष-स्तरीय थ्रूपुट चाहिए
* आप कटिंग-एज अनुकूलन (Radix attention) चाहते हैं

### vLLM का उपयोग तब करें:

* आपको आवश्यकता है अधिकतम थ्रूपुट की, साथ में **परिपक्व, अच्छी तरह समर्थित** फ्रेमवर्क
* आप कई उपयोगकर्ताओं को स्केल पर सर्व कर रहे हैं
* आपको बड़े समुदाय के साथ उत्पादन विश्वसनीयता चाहिए
* आप OpenAI ड्रॉप-इन प्रतिस्थापन चाहते हैं
* आपके पास मल्टी-GPU सेटअप्स हैं
* आपको व्यापक मॉडल फॉर्मैट समर्थन चाहिए (AWQ, GPTQ, FP8)

### TGI का उपयोग तब करें:

* आप HuggingFace इकोसिस्टम में हैं
* आपको बिल्ट-इन सुरक्षा सुविधाएँ चाहिए
* आप विस्तृत Prometheus मेट्रिक्स चाहते हैं
* आपको HF मॉडलों को सीधे सर्व करने की आवश्यकता है
* आप अनुसंधान पर्यावरण में हैं

### LocalAI का उपयोग तब करें:

* आपको LLM के साथ TTS और STT चाहिए
* आप RAG के लिए एम्बेडिंग्स चाहते हैं
* आपको दस्तावेज़ रीरैंकिंग चाहिए
* आप एक एकल ऑल-इन-वन समाधान चाहते हैं
* आप वॉइस-एनबल्ड ऐप्स बना रहे हैं

***

## माइग्रेशन गाइड

### Ollama से SGLang में

```python
# Ollama
client = OpenAI(base_url='http://localhost:11434/v1', api_key='ollama')
response = client.chat.completions.create(model='llama3.2', ...)

# SGLang - बस URL और मॉडल नाम बदलें
client = OpenAI(base_url='http://localhost:8000/v1', api_key='dummy')
response = client.chat.completions.create(model='meta-llama/Llama-3.2-3B-Instruct', ...)
```

### vLLM से SGLang में

दोनों OpenAI API का समर्थन करते हैं - बस endpoint URL बदलें। APIs पूरी तरह संगत हैं।

```bash
# vLLM
python -m vllm.entrypoints.openai.api_server --model ... --port 8000

# SGLang (समान)
python -m sglang.launch_server --model-path ... --port 8000
```

***

## GPU द्वारा सिफारिशें

| GPU           | एकल उपयोगकर्ता | एकाधिक उपयोगकर्ता | रीज़निंग मॉडल |
| ------------- | -------------- | ----------------- | ------------- |
| RTX 3060 12GB | Ollama         | Ollama            | Ollama        |
| RTX 3090 24GB | Ollama         | vLLM              | SGLang        |
| RTX 4090 24GB | SGLang/vLLM    | SGLang/vLLM       | SGLang        |
| A100 40GB+    | SGLang         | SGLang            | SGLang        |

***

## अगले कदम

* [Ollama गाइड](/guides/guides_v2-hi/language-models/ollama.md) - सबसे आसान सेटअप
* [vLLM गाइड](/guides/guides_v2-hi/language-models/vllm.md) - सबसे उच्च थ्रूपुट
* [LocalAI गाइड](/guides/guides_v2-hi/language-models/localai-openai-compatible.md) - मल्टी-मोडल समर्थन
* [DeepSeek-R1 गाइड](/guides/guides_v2-hi/language-models/deepseek-r1.md) - रीज़निंग मॉडल
* [मल्टी-GPU सेटअप](/guides/guides_v2-hi/advanced/multi-gpu-setup.md) - बड़े मॉडलों तक स्केल करें
* [API एकीकरण](/guides/guides_v2-hi/advanced/api-integration.md) - एप्लीकेशंस बनाएं


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-hi/comparisons/llm-serving-comparison.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
