ONNX रनटाइम GPU
क्यों ONNX Runtime?
फ़ीचर
TensorRT-LLM
TorchScript
TensorFlow Serving
समर्थित Execution Providers
प्रोवाइडर
हार्डवेयर
उपयोग केस
पूर्व-आवश्यकताएँ
चरण 1 — Clore.ai पर एक GPU किराए पर लें
चरण 2 — अपना कंटेनर तैनात करें
चरण 3 — GPU समर्थन के साथ ONNX Runtime इंस्टॉल करें
चरण 4 — अपना मॉडल ONNX में एक्सपोर्ट करें
PyTorch मॉडल एक्सपोर्ट
HuggingFace Transformers एक्सपोर्ट
ORT अनुकूलन के साथ एक्सपोर्ट करें
चरण 5 — ONNX Runtime के साथ इनफ़रेंस चलाएँ
बुनियादी GPU इनफ़रेंस
थ्रूपुट के लिए बैच इनफ़रेंस
चरण 6 — TensorRT Execution Provider (अधिकतम प्रदर्शन)
चरण 7 — अधिकतम गति के लिए INT8 क्वांटाइज़ेशन
चरण 8 — एक Inference API बनाएं
चरण 9 — GPU उपयोग की निगरानी करें
प्रदर्शन बेंचमार्क्स
मॉडल
GPU
प्रोवाइडर
थ्रूपुट (inf/sec)
समस्या निवारण
CUDA प्रोवाइडर उपलब्ध नहीं है
TensorRT संकलन त्रुटियाँ
आकार मेल न होने की त्रुटियाँ
उन्नत: मल्टी-मॉडल पाइपलाइन
अतिरिक्त संसाधन
Clore.ai GPU सिफारिशें
उपयोग केस
सिफारिश की गई GPU
Clore.ai पर अनुमानित लागत
Last updated
Was this helpful?