TensorRT-LLM
TensorRT-LLM क्यों?
फ़ीचर
vLLM
— 2 गाइड्स:
पूर्व-आवश्यकताएँ
मॉडल के अनुसार VRAM आवश्यकताएँ
मॉडल
FP16
INT8
INT4
चरण 1 — Clore.ai पर अपना GPU चुनें
चरण 2 — TRT-LLM बैकएंड के साथ Triton Inference Server तैनात करें
चरण 3 — कनेक्ट करें और स्थापना सत्यापित करें
चरण 4 — मॉडल डाउनलोड और तैयार करें
HuggingFace CLI इंस्टॉल करें
मॉडल वेट्स डाउनलोड करें
चरण 5 — TensorRT इंजन बनाएं
FP16 इंजन (बेहतर गुणवत्ता)
INT8 SmoothQuant इंजन (उच्च थ्रूपुट)
INT4 AWQ इंजन (अधिकतम थ्रूपुट / न्यूनतम मेमोरी)
चरण 6 — TRT-LLM Python API के साथ त्वरित परीक्षण
चरण 7 — Triton Inference Server सेटअप करें
मॉडल रिपोजिटरी संरचना बनाएं
इंजन के लिए सिमलिंक बनाएं
Triton सर्वर शुरू करें
चरण 8 — API को क्वेरी करें
OpenAI-अनुकूल क्लाइंट
थ्रुपुट का बेंचमार्क करें
चरण 9 — OpenAI-अनुकूल API रैपर जोड़ें
समस्या निवारण
इंजन बिल्ड OOM
Triton सर्वर शुरू नहीं हो रहा
कम थ्रूपुट
Clore.ai GPUs पर प्रदर्शन बेंचमार्क
मॉडल
GPU
क्वांटाइजेशन
थ्रूपुट (टोकन/सेकंड)
अतिरिक्त संसाधन
Clore.ai GPU सिफारिशें
उपयोग केस
सिफारिश की गई GPU
Clore.ai पर अनुमानित लागत
Last updated
Was this helpful?