Triton Inference Server

NVIDIA ट्राइटन इन्फरेंस सर्वर एक उत्पादन-ग्रेड, ओपन-सोर्स इन्फरेंस सर्विंग प्लेटफ़ॉर्म है जो लगभग हर प्रमुख ML फ़्रेमवर्क का समर्थन करता है। उच्च थ्रूपुट और कम विलंबता के लिए डिज़ाइन किया गया, Triton PyTorch, TensorFlow, ONNX, TensorRT, OpenVINO और अधिक को संभालता है — वह भी एक ही सर्वर प्रक्रिया से। स्केलेबल, लागत-कुशल इन्फरेंस इंफ्रास्ट्रक्चर के लिए इसे Clore.ai के GPU क्लाउड पर तैनात करें।


Triton इन्फरेंस सर्वर क्या है?

Triton बड़े पैमाने पर ML मॉडल सर्व करने की चुनौती के लिए NVIDIA का उत्तर है:

  • बहु-फ़्रेमवर्क: PyTorch, TensorFlow, TensorRT, ONNX, OpenVINO, Python कस्टम बैकएंड

  • समवर्ती निष्पादन: एक से अधिक मॉडल, GPU पर एक से अधिक उदाहरण

  • डायनामिक बैचिंग: उच्च थ्रूपुट के लिए अनुरोधों को स्वचालित रूप से बैच करें

  • gRPC + HTTP: बॉक्स से बाहर इंडस्ट्री-स्टैंडर्ड प्रोटोकॉल

  • मेट्रिक्स: Prometheus-संगत मेट्रिक्स एंडपॉइंट

  • मॉडल रिपोजिटरी: फ़ाइल-सिस्टम आधारित मॉडल प्रबंधन

उपयोग किए जाने वाले पोर्ट:

पोर्ट
प्रोटोकॉल
उद्देश्य

8000

HTTP

REST इन्फरेंस API

8001

gRPC

gRPC इन्फरेंस API

8002

HTTP

Prometheus मेट्रिक्स


पूर्व-आवश्यकताएँ

आवश्यकता
न्यूनतम
सिफारिश की गई

GPU VRAM

8 GB

16–24 GB

GPU

कोई भी NVIDIA जो CUDA 11+ के साथ हो

RTX 4090 / A100

RAM

16 GB

32 GB

स्टोरेज

20 GB

50 GB

circle-info

Triton गैर-CUDA वर्कलोड के लिए CPU-केवल इन्फरेंस को भी समर्थन देता है। लागत-बचत के लिए cpu-only Docker इमेज के उस वेरिएंट का उपयोग करें उन बैच जॉब्स के लिए जिन्हें GPU की आवश्यकता नहीं है।


चरण 1 — Clore.ai पर एक GPU किराए पर लें

  1. लॉग इन करें clore.aiarrow-up-right.

  2. पर क्लिक करें मार्केटप्लेस और VRAM ≥ 16 GB द्वारा फ़िल्टर करें।

  3. एक सर्वर चुनें और क्लिक करें कॉन्फ़िगर.

  4. Docker इमेज सेट करें: nvcr.io/nvidia/tritonserver:24.01-py3

  5. खुले पोर्ट सेट करें: 22 (SSH), 8000 (HTTP), 8001 (gRPC), 8002 (मेट्रिक्स)।

  6. पर क्लिक करें किराए पर लें.

circle-exclamation

चरण 2 — कस्टम Dockerfile (SSH के साथ)

आधिकारिक Triton इमेज में SSH सर्वर शामिल नहीं होता। इस Dockerfile का उपयोग करें:


चरण 3 — मॉडल रिपोजिटरी को समझें

Triton एक से मॉडल लोड करता है मॉडल रिपोजिटरी — एक निर्देशिका है जिसकी एक विशिष्ट संरचना होती है:

प्रत्येक मॉडल को चाहिए:

  1. मॉडल नाम वाली एक निर्देशिका

  2. एक config.pbtxt कॉन्फ़िगरेशन फ़ाइल

  3. कम से कम एक संस्करण उप-निर्देशिका (उदा., 1/) जिसमें मॉडल फ़ाइल हो


चरण 4 — एक PyTorch मॉडल तैनात करें

मॉडल को TorchScript में एक्सपोर्ट करें

मॉडल रिपोजिटरी सेट अप करें

config.pbtxt बनाएँ


चरण 5 — एक ONNX मॉडल तैनात करें

ONNX में एक्सपोर्ट करें

ONNX कॉन्फ़िग


चरण 6 — एक Python कस्टम बैकएंड तैनात करें

उन मॉडलों के लिए जो स्टैंडर्ड बैकएंड्स में फिट नहीं बैठते (कस्टम प्रीप्रोसेसिंग, एन्सेम्बल लॉजिक):


चरण 7 — Triton शुरू करें और परीक्षण करें

Triton सर्वर शुरू करें

उपलब्ध मॉडलों की जाँच करें

HTTP के माध्यम से इन्फरेंस चलाएँ

gRPC के माध्यम से इन्फरेंस चलाएँ


Prometheus के साथ निगरानी

Triton पोर्ट 8002 पर मेट्रिक्स एक्सपोज़ करता है:

मुख्य मेट्रिक्स:


डायनामिक बैचिंग कॉन्फ़िगरेशन


समस्या निवारण

मॉडल लोड विफलता

समाधान: निर्देशिका संरचना और अनुमतियाँ जाँचें:

CUDA असंगतता

समाधान: अपने CUDA ड्राइवर से मेल खाने के लिए Triton इमेज संस्करण मिलाएँ:

पोर्ट पहुँचा नहीं जा सकता

समाधान: सुनिश्चित करें कि तीनों पोर्ट (8000, 8001, 8002) Clore.ai में फॉरवर्ड किए गए हैं। प्रत्येक का परीक्षण करें:

मॉडल लोड करते समय OOM

समाधान: इंस्टेंस काउंट घटाएँ या कुछ मॉडलों के लिए CPU इंस्टेंस का उपयोग करें:


लागत अनुमान

GPU
VRAM
अनुमानित मूल्य
थ्रूपुट (ResNet50)

RTX 3080

10 GB

~$0.10/घंटा

~500 req/sec

RTX 4090

24 GB

~$0.35/घंटा

~1500 req/sec

A100 40GB

40 GB

~$0.80/घंटा

~3000 req/sec

H100

80 GB

~$2.50/घंटा

~8000 req/sec


उपयोगी संसाधन


Clore.ai GPU सिफारिशें

उपयोग केस
सिफारिश की गई GPU
Clore.ai पर अनुमानित लागत

डेवलपमेंट/टेस्टिंग

RTX 3090 (24GB)

~$0.12/gpu/hr

उत्पादन इन्फरेंस

RTX 4090 (24GB)

~$0.70/gpu/hr

बड़े मॉडल (70B+)

A100 80GB

~$1.20/gpu/hr

💡 इस गाइड के सभी उदाहरण तैनात किए जा सकते हैं Clore.aiarrow-up-right GPU सर्वरों पर। उपलब्ध GPUs ब्राउज़ करें और घंटे के हिसाब से किराए पर लें — कोई प्रतिबद्धता नहीं, पूर्ण रूट एक्सेस।

Last updated

Was this helpful?