ONNX रनटाइम GPU

क्रॉस-प्लेटफ़ॉर्म, हार्डवेयर-त्वरित ML इन्फ़रेंस — किसी भी फ्रेमवर्क के किसी भी मॉडल को तैनात करें

ONNX Runtime (ORT) माइक्रोसॉफ्ट का ओपन-सोर्स इनफ़रेंस इंजन है जो ONNX (Open Neural Network Exchange) मॉडलों के लिए है। यह एक एकीकृत API के माध्यम से CPU, GPU, और विशेष एसेलेरेटर पर हार्डवेयर-त्वरित इनफ़रेंस प्रदान करता है। चाहे आपका मॉडल PyTorch, TensorFlow, Scikit-learn, या XGBoost में प्रशिक्षित किया गया हो — यदि आप इसे ONNX फॉर्मेट में एक्सपोर्ट कर सकते हैं, तो ORT इसे तेज़ी से चला सकता है।

GitHub: microsoft/onnxruntimearrow-up-right — 14K+ ⭐


क्यों ONNX Runtime?

फ़ीचर
TensorRT-LLM
TorchScript
TensorFlow Serving

फ्रेमवर्क-अज्ञेय

❌ केवल PyTorch

❌ केवल TF

GPU त्वरण

✅ CUDA/TensorRT

INT8/FP16 क्वांटाइज़ेशन

आंशिक

आंशिक

मोबाइल/एज पर तैनाती

सीमित

सीमित

ऑपरेटर फ़्यूज़न

आंशिक

आसान एकीकरण

✅ Python/C++/Java

Python

Python/gRPC

circle-check

समर्थित Execution Providers

ONNX Runtime कई हार्डवेयर बैकएंड्स (Execution Providers) का समर्थन करता है:

प्रोवाइडर
हार्डवेयर
उपयोग केस

CUDAExecutionProvider

NVIDIA GPUs

सामान्य GPU इनफ़रेंस

TensorrtExecutionProvider

NVIDIA GPUs

अधिकतम थ्रूपुट

CPUExecutionProvider

CPU

फॉलबैक / एज

ROCMExecutionProvider

AMD GPUs

AMD हार्डवेयर

CoreMLExecutionProvider

Apple Silicon

macOS/iOS

OpenVINOExecutionProvider

Intel

Intel CPUs/GPUs


पूर्व-आवश्यकताएँ

  • GPU किराए के साथ Clore.ai खाता

  • बुनियादी Python ज्ञान

  • एक प्रशिक्षित मॉडल (PyTorch, TensorFlow, या पहले से एक्सपोर्ट किया गया ONNX)


चरण 1 — Clore.ai पर एक GPU किराए पर लें

  1. जाएँ clore.aiarrow-up-rightमार्केटप्लेस

  2. कोई भी NVIDIA GPU काम करेगा — छोटे मॉडलों के लिए RTX 3070 से लेकर बड़े ट्रांसफ़ॉर्मर्स के लिए A100 तक

  3. ट्रांसफ़ॉर्मर मॉडलों के लिए: RTX 4090 या A100 की सिफारिश की जाती है

  4. कम्प्यूटर विज़न के लिए: RTX 3090 या RTX 4090 पर्याप्त है


चरण 2 — अपना कंटेनर तैनात करें

ONNX Runtime का कोई आधिकारिक pre-built कंटेनर नहीं है, लेकिन NVIDIA CUDA बेस आदर्श है:

Docker इमेज:

पोर्ट्स:

पर्यावरण चर:

circle-info

वैकल्पिक रूप से, उपयोग करें pytorch/pytorch:2.1.0-cuda12.1-cudnn8-runtime जिसमें CUDA और ORT इंस्टॉलेशन के लिए तैयार Python एनवायरनमेंट शामिल है।


चरण 3 — GPU समर्थन के साथ ONNX Runtime इंस्टॉल करें


चरण 4 — अपना मॉडल ONNX में एक्सपोर्ट करें

PyTorch मॉडल एक्सपोर्ट

HuggingFace Transformers एक्सपोर्ट

ORT अनुकूलन के साथ एक्सपोर्ट करें


चरण 5 — ONNX Runtime के साथ इनफ़रेंस चलाएँ

बुनियादी GPU इनफ़रेंस

थ्रूपुट के लिए बैच इनफ़रेंस


चरण 6 — TensorRT Execution Provider (अधिकतम प्रदर्शन)

NVIDIA GPUs के लिए, TensorRT EP और भी बेहतर प्रदर्शन प्रदान करता है:

circle-exclamation

चरण 7 — अधिकतम गति के लिए INT8 क्वांटाइज़ेशन


चरण 8 — एक Inference API बनाएं


चरण 9 — GPU उपयोग की निगरानी करें


प्रदर्शन बेंचमार्क्स

मॉडल
GPU
प्रोवाइडर
थ्रूपुट (inf/sec)

ResNet50

RTX 4090

CUDA

~4,200

ResNet50

RTX 4090

TensorRT FP16

~8,500

BERT बेस

RTX 4090

CUDA

~380

BERT बेस

RTX 4090

TensorRT FP16

~720

YOLOv8n

RTX 3090

CUDA

~1,800

YOLOv8x

A100

TensorRT FP16

~920


समस्या निवारण

CUDA प्रोवाइडर उपलब्ध नहीं है

TensorRT संकलन त्रुटियाँ

आकार मेल न होने की त्रुटियाँ


उन्नत: मल्टी-मॉडल पाइपलाइन


अतिरिक्त संसाधन


Clore.ai पर ONNX Runtime उत्पादन इनफ़रेंस सेवाओं के लिए आदर्श विकल्प है जिन्हें अधिकतम GPU दक्षता के साथ विभिन्न फ्रेमवर्क्स के मॉडल सर्व करने की आवश्यकता होती है।


Clore.ai GPU सिफारिशें

उपयोग केस
सिफारिश की गई GPU
Clore.ai पर अनुमानित लागत

डेवलपमेंट/टेस्टिंग

RTX 3090 (24GB)

~$0.12/gpu/hr

उत्पादन इन्फरेंस

RTX 4090 (24GB)

~$0.70/gpu/hr

बड़े पैमाने पर तैनाती

A100 80GB

~$1.20/gpu/hr

💡 इस गाइड के सभी उदाहरण तैनात किए जा सकते हैं Clore.aiarrow-up-right GPU सर्वरों पर। उपलब्ध GPUs ब्राउज़ करें और घंटे के हिसाब से किराए पर लें — कोई प्रतिबद्धता नहीं, पूर्ण रूट एक्सेस।

Last updated

Was this helpful?