TensorRT-LLM

NVIDIA TensorRT अनुकूलन के साथ अधिकतम LLM इनफरेंस थ्रूपुट — Triton Inference Server के माध्यम से तैनात

TensorRT-LLM NVIDIA की ओपन-सोर्स लाइब्रेरी है जो NVIDIA GPUs पर बड़े भाषा मॉडल इनफरेंस का अनुकूलन करती है। यह कर्नेल फ्यूज़न, क्वांटाइज़ेशन (INT4, INT8, FP8), इन-फ्लाइट बैचिंग, और पेज्ड KV-कैशिंग के माध्यम से अत्याधुनिक प्रदर्शन प्रदान करती है। Triton Inference Server के साथ संयोजन में, आपको प्रोडक्शन-ग्रेड सर्विंग इन्फ्रास्ट्रक्चर मिलता है।

GitHub: NVIDIA/TensorRT-LLMarrow-up-right — 10K+ ⭐


TensorRT-LLM क्यों?

फ़ीचर
vLLM
— 2 गाइड्स:

थ्रूपुट

अत्युत्तम

सर्वोत्तम श्रेणी में

लेटेंसी

अच्छा

अत्युत्तम

INT4/INT8 क्वांटाइज़ेशन

आंशिक

नेटिव

FP8 समर्थन

सीमित

पूर्ण

मल्टी-GPU टेENSOR पैरेलल

हाँ

हाँ

सेटअप जटिलता

कम

मध्यम-उच्च

circle-check

पूर्व-आवश्यकताएँ

  • GPU किराये के साथ Clore.ai खाता

  • Ampere आर्किटेक्चर या नया NVIDIA GPU (RTX 3090, A100, RTX 4090, H100)

  • बुनियादी Linux और Docker ज्ञान

  • आपके चुने मॉडल के लिए पर्याप्त VRAM


मॉडल के अनुसार VRAM आवश्यकताएँ

मॉडल
FP16
INT8
INT4

Llama-3.1 8B

16GB

8GB

4GB

Llama-3.1 70B

140GB

70GB

35GB

Mistral 7B

14GB

7GB

4GB

Mixtral 8x7B

90GB

45GB

24GB

Qwen2.5 72B

144GB

72GB

36GB


चरण 1 — Clore.ai पर अपना GPU चुनें

  1. लॉग इन करें clore.aiarrow-up-rightमार्केटप्लेस

  2. सिंगल GPU सर्विंग के लिए (7B–13B मॉडल): RTX 4090 24GB या RTX 3090 24GB

  3. बड़े मॉडल्स (70B+): कई A100 80GB या H100

circle-info

मल्टी-GPU रणनीति:

  • 2x A100 80GB → Llama 3.1 70B FP16 या Qwen2.5 72B में

  • 4x A100 80GB → Llama 3.1 405B INT8 में

  • Clore.ai मार्केटप्लेस में उन सर्वरों का चयन करें जिनमें कई GPUs सूचीबद्ध हों


चरण 2 — TRT-LLM बैकएंड के साथ Triton Inference Server तैनात करें

Docker इमेज:

circle-exclamation

खुले पोर्ट:

पर्यावरण चर:

वॉल्यूम/डिस्क: कम से कम 100GB की सिफारिश की जाती है


चरण 3 — कनेक्ट करें और स्थापना सत्यापित करें


चरण 4 — मॉडल डाउनलोड और तैयार करें

हम उदाहरण के रूप में Llama 3.1 8B का उपयोग करेंगे। अपने चुने मॉडल के लिए पथ समायोजित करें।

HuggingFace CLI इंस्टॉल करें

मॉडल वेट्स डाउनलोड करें


चरण 5 — TensorRT इंजन बनाएं

यह मुख्य कदम है — मॉडल को एक अनुकूलित TensorRT इंजन में संकलित करना।

FP16 इंजन (बेहतर गुणवत्ता)

INT8 SmoothQuant इंजन (उच्च थ्रूपुट)

INT4 AWQ इंजन (अधिकतम थ्रूपुट / न्यूनतम मेमोरी)

circle-info

इंजन निर्माण समय: GPU और मॉडल आकार पर निर्भर करते हुए 10–30 मिनट। यह एक बार किया जाने वाला ऑपरेशन है — एक बार बन जाने पर, इंजन सेकंडों में लोड हो जाता है।


चरण 6 — TRT-LLM Python API के साथ त्वरित परीक्षण

Triton सेटअप करने से पहले सत्यापित करें कि इंजन काम करता है:


चरण 7 — Triton Inference Server सेटअप करें

मॉडल रिपोजिटरी संरचना बनाएं

इंजन के लिए सिमलिंक बनाएं

Triton सर्वर शुरू करें


चरण 8 — API को क्वेरी करें

OpenAI-अनुकूल क्लाइंट

थ्रुपुट का बेंचमार्क करें


चरण 9 — OpenAI-अनुकूल API रैपर जोड़ें

आसान एकीकरण के लिए, एक FastAPI रैपर जोड़ें:


समस्या निवारण

इंजन बिल्ड OOM

Triton सर्वर शुरू नहीं हो रहा

कम थ्रूपुट


Clore.ai GPUs पर प्रदर्शन बेंचमार्क

मॉडल
GPU
क्वांटाइजेशन
थ्रूपुट (टोकन/सेकंड)

Llama 3.1 8B

RTX 4090

FP16

~3,500

Llama 3.1 8B

RTX 4090

INT4 AWQ

~6,200

Llama 3.1 70B

2x A100 80G

FP16

~1,800

Mixtral 8x7B

2x RTX 4090

INT8

~2,400


अतिरिक्त संसाधन


जहाँ थ्रूपुट और लेटेंसी महत्वपूर्ण हैं, वहाँ प्रोडक्शन LLM सर्विंग के लिए Clore.ai पर TensorRT-LLM सर्वोत्कृष्ट विकल्प है। सरल सेटअप के लिए, vLLM गाइड पर विचार करें।


Clore.ai GPU सिफारिशें

उपयोग केस
सिफारिश की गई GPU
Clore.ai पर अनुमानित लागत

डेवलपमेंट/टेस्टिंग

RTX 3090 (24GB)

~$0.12/gpu/hr

उत्पादन इन्फरेंस

RTX 4090 (24GB)

~$0.70/gpu/hr

बड़े मॉडल (70B+)

A100 80GB

~$1.20/gpu/hr

💡 इस गाइड के सभी उदाहरण तैनात किए जा सकते हैं Clore.aiarrow-up-right GPU सर्वरों पर। उपलब्ध GPUs ब्राउज़ करें और घंटे के हिसाब से किराए पर लें — कोई प्रतिबद्धता नहीं, पूर्ण रूट एक्सेस।

Last updated

Was this helpful?