TGI (टेक्स्ट जेनरेशन इन्फरेंस)

उत्पादन LLM सर्विंग के लिए HuggingFace Text Generation Inference (TGI) को Clore.ai GPUs पर चलाएं

Text Generation Inference (TGI) HuggingFace का प्रोडक्शन-ग्रेड LLM सर्विंग फ्रेमवर्क है, जो हाई-थ्रूपुट और लो-लेटेंसी इन्फरेंस के लिए डिज़ाइन किया गया है। यह बक्से से बाहर Flash Attention 2, निरंतर बैचिंग, PagedAttention, और टेन्सर पैरेललिज़्म का समर्थन करता है — जिससे यह CLORE.AI GPU सर्वरों पर बड़े भाषा मॉडल को स्केल पर तैनात करने के लिए प्रमुख समाधान बन जाता है।

circle-check

सर्वर आवश्यकताएँ

पैरामीटर
न्यूनतम
अनुशंसित

RAM

16 GB

32 GB+

VRAM

8 GB

24 GB+

डिस्क

50 GB

200 GB+

GPU

किसी भी NVIDIA (Flash Attention के लिए Ampere+)

A100, H100, RTX 4090

circle-info

Flash Attention 2 के लिए Ampere आर्किटेक्चर या नया (RTX 3000+, A100, H100) आवश्यक है। पुराने GPUs के लिए, TGI स्वचालित रूप से मानक अटेंशन पर वापस चले जाएगा।

CLORE.AI पर त्वरित तैनाती

Docker इमेज: ghcr.io/huggingface/text-generation-inference:latest

पोर्ट्स: 22/tcp, 8080/http

पर्यावरण चर:

चर
उदाहरण
विवरण

MODEL_ID

mistralai/Mistral-7B-Instruct-v0.3

HuggingFace मॉडल आईडी

HF_TOKEN

hf_xxx...

HuggingFace टोकन (गेटेड मॉडलों के लिए)

NUM_SHARD

2

टेंसर पैरेललिज़्म के लिए GPUs की संख्या

MAX_INPUT_LENGTH

4096

अधिकतम इनपुट टोकन

MAX_TOTAL_TOKENS

8192

अधिकतम इनपुट + आउटपुट टोकन

QUANTIZE

bitsandbytes-nf4

क्वांटाइज़ेशन विधि

चरण-दर-चरण सेटअप

1. CLORE.AI पर एक GPU सर्वर किराए पर लें

जाएँ CLORE.AI मार्केटप्लेसarrow-up-right और सर्वरों को फ़िल्टर करें:

  • 7B मॉडलों के लिए VRAM ≥ 24 GB (फुल प्रिसिशन)

  • 7B मॉडलों के लिए VRAM ≥ 12 GB (4-बिट क्वांटाइज़ेशन)

  • 70B मॉडलों के लिए VRAM ≥ 80 GB (फुल प्रिसिशन, सिंगल GPU)

2. SSH के जरिए कनेक्ट करें

आपका ऑर्डर कन्फर्म होने के बाद, अपने CLORE.AI डैशबोर्ड से मिले SSH विवरणों का उपयोग करके अपने सर्वर से कनेक्ट करें:

या अपने CLORE.AI ऑर्डर पैनल से वेब टर्मिनल का उपयोग करें।

3. TGI Docker इमेज खींचें (Pull)

4. किसी मॉडल के साथ TGI लॉन्च करें

बेसिक लॉन्च (Mistral 7B):

HuggingFace टोकन के साथ (Llama 3 जैसे गेटेड मॉडलों के लिए):

4-बिट क्वांटाइज़ेशन के साथ (कम VRAM के लिए):

मल्टी-GPU टेन्सर पैरेललिज़्म (70B मॉडलों के लिए):

5. सत्यापित करें कि सर्वर चल रहा है

अपेक्षित प्रतिक्रिया: {"status":"ok"}

6. CLORE.AI HTTP प्रॉक्सी के माध्यम से एक्सेस करें

अपने CLORE.AI ऑर्डर पैनल में, आप अपना http_pub पोर्ट 8080 के लिए URL देखेंगे। यह ब्राउज़र/API एक्सेस को SSH टनलिंग के बिना सक्षम करता है:


उपयोग के उदाहरण

उदाहरण 1: बेसिक टेक्स्ट जनरेशन

उदाहरण 2: चैट कंप्लीशन्स (OpenAI-अनुकूल)

TGI OpenAI चैट कंप्लीशन्स API फ़ॉर्मेट का समर्थन करता है:

उदाहरण 3: स्ट्रीमिंग प्रतिक्रिया

उदाहरण 4: Python क्लाइंट

उदाहरण 5: बैच अनुरोध


कॉन्फ़िगरेशन

मुख्य CLI पैरामीटर्स

पैरामीटर
डिफ़ॉल्ट
विवरण

--model-id

अनिवार्य

HuggingFace मॉडल ID या स्थानीय पथ

--num-shard

1

GPU shards की संख्या (टेन्सर पैरेललिज़्म)

--max-concurrent-requests

128

अधिकतम समवर्ती अनुरोध

--max-input-length

1024

अधिकतम इनपुट टोकन लंबाई

--max-total-tokens

2048

अधिकतम इनपुट + आउटपुट टोकन

--max-batch-total-tokens

auto

प्रति बैच अधिकतम टोकन

--quantize

none

क्वांटाइज़ेशन: bitsandbytes-nf4, gptq, awq

--dtype

auto

float16, bfloat16

--trust-remote-code

false

कस्टम मॉडल कोड की अनुमति दें

--port

80

सर्वर पोर्ट

लोकल मॉडल का उपयोग करना

यदि आपके पास मॉडल लोकल रूप से डाउनलोड है:

AWQ क्वांटाइज़ेशन (NF4 की तुलना में तेज़)


प्रदर्शन सुझाव

1. Flash Attention 2 सक्षम करें

Ampere+ GPUs (RTX 3000+, A100, H100) पर Flash Attention 2 स्वचालित रूप से सक्षम होता है। कोई अतिरिक्त कॉन्फ़िगरेशन आवश्यक नहीं।

2. अधिकतम बैच साइज ट्यून करें

उच्च-थ्रूपुट परिदृश्यों के लिए, बैच साइज बढ़ाएं:

3. Ampere+ GPUs पर bfloat16 का उपयोग करें

यह float16 की तुलना में संख्यात्मक रूप से अधिक स्थिर है और आधुनिक GPUs पर समान प्रदर्शन देता है।

4. मॉडल्स को पर्सिस्टेंट स्टोरेज पर पहले से डाउनलोड करें

फिर लोकल पथ को माउंट करें ताकि रिस्टार्ट पर पुनः डाउनलोड न करना पड़े।

5. GPU मेमोरी प्रबंधन

RTX 3090/4090 (24GB VRAM) के लिए:

6. स्पेकुलेटिव डीकोडिंग

छोटे मॉडलों के साथ ड्राफ्ट के रूप में तेज़ जनरेशन के लिए:


समस्या निवारण

समस्या: "CUDA out of memory"

समाधान: कम करें --max-total-tokens या क्वांटाइज़ेशन सक्षम करें:

समस्या: मॉडल डाउनलोड धीमा है

समाधान: HuggingFace मिरर का उपयोग करें या पहले से डाउनलोड करें:

समस्या: सर्वर http_pub के माध्यम से सुलभ नहीं

समाधान: सुनिश्चित करें कि पोर्ट 8080 सही ढंग से मैप किया गया है। TGI आंतरिक रूप से पोर्ट 80 पर सुनता है, लेकिन आप इसे बाहरी रूप से 8080 पर मैप करते हैं:

समस्या: "trust_remote_code आवश्यक है"

कुछ मॉडलों (जैसे Falcon, Phi) को कस्टम कोड की आवश्यकता होती है:

समस्या: पहली प्रतिक्रिया धीमी है

पहला अनुरोध मॉडल को VRAM में लोड करने को ट्रिगर करता है। यह सामान्य है। बाद के अनुरोध तेज़ होंगे।

समस्या: कंटेनर तुरंत आउट हो जाता है


लिंक


Clore.ai GPU सिफारिशें

उपयोग केस
सिफारिश की गई GPU
Clore.ai पर अनुमानित लागत

डेवलपमेंट/टेस्टिंग

RTX 3090 (24GB)

~$0.12/gpu/hr

प्रोडक्शन (7B–13B)

RTX 4090 (24GB)

~$0.70/gpu/hr

बड़े मॉडल (70B+)

A100 80GB / H100

~$1.20/gpu/hr

💡 इस गाइड के सभी उदाहरण तैनात किए जा सकते हैं Clore.aiarrow-up-right GPU सर्वरों पर। उपलब्ध GPUs ब्राउज़ करें और घंटे के हिसाब से किराए पर लें — कोई प्रतिबद्धता नहीं, पूर्ण रूट एक्सेस।

Last updated

Was this helpful?