# अवलोकन

उत्पादन मशीन लर्निंग वर्कलोड के लिए GPU-त्वरित DevOps उपकरण और इनफरेंस इंजिन।

आधुनिक DevOps में ML मॉडल सर्विंग, रियल-टाइम इनफरेंस और उच्च-प्रदर्शन कंप्यूटिंग कार्यों के लिए बढ़ती रूप से GPU त्वरक पर निर्भरता है। यह श्रेणी उत्पादन-तैयार उपकरणों को कवर करती है जो तेज़ मॉडल इनफरेंस और अनुकूलित परिनियोजन पाइपलाइनों के लिए GPU कंप्यूट का लाभ उठाती हैं।

CLORE.AI GPUs पर एंटरप्राइज़-ग्रेड इनफरेंस इंजिन और रनटाइम वातावरण तैनात करें ताकि Clore.ai मार्केटप्लेस में न्यूनतम विलंबता और अधिकतम थ्रूपुट के साथ बड़े पैमाने पर ML मॉडल सर्व किए जा सकें।

## उपलब्ध मार्गदर्शिकाएँ

| मार्गदर्शिका                                                                         | उपयोग का मामला                 | कठिनाई |
| ------------------------------------------------------------------------------------ | ------------------------------ | ------ |
| [ONNX रनटाइम GPU](https://docs.clore.ai/guides/guides_v2-hi/gpu-devops/onnx-runtime) | क्रॉस-प्लैटफ़ॉर्म मॉडल इनफरेंस | मध्यम  |
| [TensorRT-LLM](https://docs.clore.ai/guides/guides_v2-hi/gpu-devops/tensorrt-llm)    | अनुकूलित LLM सर्विंग           | उन्नत  |

## GPU सिफारिशें

| वर्कलोड         | न्यूनतम GPU | अनुशंसित  |
| --------------- | ----------- | --------- |
| ONNX इनफरेंस    | GTX 1660    | RTX 3070+ |
| TensorRT-LLM    | RTX 3090    | A100 40GB |
| उत्पादन सर्विंग | RTX 4090    | H100      |

## प्रदर्शन सुझाव

* NVIDIA GPU अनुकूलन के लिए TensorRT का उपयोग करें
* तेज़ इनफरेंस के लिए मिश्रित प्रिसिशन (FP16) सक्षम करें
* उच्च थ्रूपुट के लिए अनुरोधों को बैच करें
* GPU उपयोग और मेमोरी उपयोग की निगरानी करें

## संबंधित मार्गदर्शिकाएँ

* [भाषा मॉडल](https://docs.clore.ai/guides/guides_v2-hi/language-models/language-models)
* [MLOps](https://docs.clore.ai/guides/guides_v2-hi/mlops/mlops)
