BentoML

Triton Inference Server आधुनिक, ओपन-सोर्स फ्रेमवर्क है जो एआई अनुप्रयोगों का निर्माण, तैनाती और स्केलिंग करने के लिए। यह ML परीक्षण और प्रोडक्शन डिप्लॉयमेंट के बीच की खाई को पाटता है, जिससे आप किसी भी फ्रेमवर्क के किसी भी मॉडल को मिनटों में प्रोडक्शन-रेडी API सेवा में पैकेज कर सकते हैं। लागत-कुशल एआई एप्लिकेशन होस्टिंग के लिए Clore.ai के GPU क्लाउड पर BentoML चलाएँ।


BentoML क्या है?

BentoML एक प्रशिक्षित मॉडल को आसानी से एक स्केलेबल API सेवा में बदलना आसान बनाता है:

  • फ्रेमवर्क-एग्नॉस्टिक: PyTorch, TensorFlow, JAX, scikit-learn, HuggingFace, XGBoost, LightGBM, और अन्य

  • Bento: एक स्वयं-संचालित, पुनरुत्पादन योग्य आर्टिफैक्ट (मॉडल + कोड + डिपेंडेंसीज़)

  • रनर: ऑटोमैटिक बैचिंग के साथ स्केलेबल मॉडल इन्फ़रेंस यूनिट

  • सर्विस: FastAPI-जैसी HTTP/gRPC सेवा परिभाषा

  • BentoCloud: वैकल्पिक प्रबंधित डिप्लॉयमेंट प्लेटफ़ॉर्म

  • Docker-प्रथम: हर Bento को एक कमांड से कंटेनराइज़ किया जा सकता है

मुख्य विशेषताएँ:

  • थ्रूपुट अनुकूलन के लिए अनुकुलित माइक्रो-बैचिंग

  • Pydantic के साथ इन-बिल्ट इनपुट/आउटपुट सत्यापन

  • OpenAPI स्पेक स्वचालित रूप से उत्पन्न

  • Prometheus मेट्रिक्स इन-बिल्ट

  • स्ट्रीमिंग प्रतिक्रिया समर्थन (LLMs)


पूर्व-आवश्यकताएँ

आवश्यकता
न्यूनतम
अनुशंसित

GPU VRAM

8 GB

16–24 GB

GPU

कोई भी NVIDIA

RTX 4090 / A100

RAM

8 GB

16 GB

स्टोरेज

20 GB

40 GB

Python

3.9+

3.11+


चरण 1 — Clore.ai पर एक GPU किराए पर लें

  1. लॉग इन करें clore.aiarrow-up-right.

  2. पर क्लिक करें मार्केटप्लेस और ≥ 16 GB VRAM वाले GPU इंस्टेंस का चयन करें।

  3. Docker इमेज सेट करें: हम एक कस्टम बिल्ड का उपयोग करेंगे (स्टेप 2 देखें)।

  4. खुले पोर्ट सेट करें: 22 (SSH) और 3000 (BentoML सेवा)।

  5. पर क्लिक करें किराए पर लें.


स्टेप 2 — Dockerfile

BentoML का आधिकारिक GPU Docker इमेज नहीं है, इसलिए हम एक बनाते हैं:

बिल्ड और पुश करें

इमेज बनाकर इसे अपने Docker Hub अकाउंट पर पुश करें (हमें बदलें YOUR_DOCKERHUB_USERNAME अपने वास्तविक उपयोगकर्ता नाम से):

circle-info

BentoML Docker Hub पर आधिकारिक GPU Docker इमेज प्रदान नहीं करता है। bentoml/bento-server Docker Hub पर इमेज पहले से पैकेज किए गए Bentos को सर्व करने के लिए हैं और इनमें CUDA समर्थन शामिल नहीं है। Clore.ai पर GPU-सक्षम डिप्लॉयमेंट के लिए ऊपर दिए Dockerfile से इमेज बनाएँ।


स्टेप 3 — SSH के माध्यम से कनेक्ट करें

BentoML सत्यापित करें:


स्टेप 4 — आपकी पहली BentoML सेवा

सरल टेक्स्ट क्लासीफ़ायर

एक सर्विस फ़ाइल बनाएँ:

सर्विस शुरू करें

circle-info

The --reload फ़्लैग विकास के दौरान हॉट-रिलोड सक्षम करता है। स्थिरता के लिए प्रोडक्शन में इसे हटाएँ।


स्टेप 5 — सर्विस तक पहुँच

आटो-जनरेटेड Swagger UI खोलें:

या इसके द्वारा परीक्षण करें curl:

अपेक्षित प्रतिक्रिया:


स्टेप 6 — इमेज क्लासीफिकेशन सर्विस

विजन मॉडल सर्विस

एक इमेज के साथ परीक्षण करें:


स्टेप 7 — LLM स्ट्रीमिंग सर्विस

स्ट्रीमिंग प्रतिक्रियाओं वाले भाषा मॉडलों के लिए:


स्टेप 8 — Bento को सेव और बिल्ड करें

एक Bento एक पैकेज्ड, पुनरुत्पादन योग्य आर्टिफैक्ट है:

bentofile.yaml


मॉनिटरिंग और मेट्रिक्स

BentoML Prometheus मेट्रिक्स को परोक्ष करता है /metrics:

मुख्य मेट्रिक्स:


एडैप्टिव बैचिंग कॉन्फ़िगरेशन


समस्या निवारण

सर्विस शुरू नहीं होगी

समाधान:

  • CUDA उपलब्धता जांचें: python -c "import torch; print(torch.cuda.is_available())"

  • GPU VRAM सत्यापित करें: nvidia-smi

  • मॉडल डाउनलोड पूरा हुआ या नहीं जांचें (लॉग में डाउनलोड प्रगति देखें)

पोर्ट 3000 पहुँच योग्य नहीं है

पहले अनुरोध पर उच्च विलंबता

यह सामान्य है — पहले अनुरोध से मॉडल लोडिंग (वार्म-अप) ट्रिगर होता है। सभी बाद के अनुरोध तेज़ होंगे। स्टार्ट के बाद एक वार्म-अप एन्डपॉइंट कॉल जोड़ें:

इम्पोर्ट त्रुटियाँ

समाधान:


Clore.ai GPU सिफारिशें

BentoML एक सर्विंग फ्रेमवर्क है — GPU आवश्यकताएँ पूरी तरह उस मॉडल पर निर्भर करती हैं जिसे आप डिप्लॉय करते हैं। सामान्य वर्कलोड्स के लिए यह अपेक्षा करें:

GPU
VRAM
Clore.ai कीमत
LLM (7B Q4) थ्रूपुट
डिफ्यूज़न (SDXL)
विजन (ResNet50)

RTX 3090

24 GB

~$0.12/घंटा

~80 tok/s

~4 img/min

~400 req/s

RTX 4090

24 GB

~$0.70/घंटा

~140 tok/s

~8 img/min

~700 req/s

A100 40GB

40 GB

~$1.20/घंटा

~110 tok/s

~6 img/min

~1200 req/s

A100 80GB

80 GB

~$2.00/घंटा

~130 tok/s

~7 img/min

~1400 req/s

उपयोग मामला मार्गदर्शन:

  • LLM API सर्विंग (7B–13B): RTX 3090 (~$0.12/hr) — अनुकूलित कीमत-प्रदर्शन

  • इमेज जनरेशन APIs: थ्रूपुट आवश्यकताओं के आधार पर RTX 3090 या RTX 4090

  • बड़े मॉडल (34B–70B Q4): A100 40GB (~$1.20/hr) — आराम से फिट बैठता है

  • प्रोडक्शन मल्टी-मॉडल सर्विंग: मेमोरी हेडरूम के लिए A100 80GB

circle-info

BentoML का एडैप्टिव माइक्रो-बैचिंग A100s पर विशेष रूप से प्रभावी है — हार्डवेयर शेड्युलर कुशलतापूर्वक बैचिंग संभालता है, जिससे प्रति डॉलर अधिक थ्रूपुट मिलता है बनिस्पत सरल सिंगल-रिक्वेस्ट सर्विंग के। उच्च-ट्रैफ़िक APIs के लिए, अक्सर दो RTX 4090s की तुलना में A100 40GB बेहतर ROI देता है।


उपयोगी संसाधन

Last updated

Was this helpful?