MLflow

— 4 गाइड्स: कुल के प्रबंधन के लिए एक ओपन-सोर्स प्लेटफ़ॉर्म है मशीन लर्निंग जीवनचक्र — प्रयोग ट्रैकिंग और मॉडल वर्शनिंग से लेकर परिनियोजन और निगरानी तक। दुनिया भर में हजारों संगठनों द्वारा उपयोग किया जाता है, MLflow ML वर्कफ़्लो में संरचना और पुनरुत्पादनशीलता लाता है। Clore.ai के GPU क्लाउड पर इसे चलाएँ ताकि आपके प्रशिक्षण जॉब्स के साथ एक केंद्रीकृत ट्रैकिंग सर्वर प्राप्त हो सके।


MLflow क्या है?

MLflow चार मुख्य घटक प्रदान करता है:

घटक
विवरण

ट्रैकिंग

ML रन से पैरामीटर, मेट्रिक्स, आर्टिफैक्ट और कोड लॉग करें

प्रोजेक्ट्स

पुनरुत्पादन योग्य रन के लिए कोड पैकेज करें

मॉडल्स

फ्रेेमवर्क्स में परिनियोजन के लिए मानक मॉडल फ़ॉर्मेट

मॉडल रजिस्ट्री

वर्शनिंग और जीवनचक्र के साथ केंद्रीकृत मॉडल स्टोर

समर्थित फ्रेमवर्क (बिल्ट-इन ऑटो-लॉगिंग):

  • PyTorch, TensorFlow/Keras

  • Scikit-learn, XGBoost, LightGBM

  • HuggingFace Transformers

  • Spark MLlib, statsmodels, Prophet


पूर्व-आवश्यकताएँ

आवश्यकता
मान

GPU VRAM

कोई भी (MLflow सर्वर स्वयं CPU-बाउंड है)

स्टोरेज

20 GB+ (आर्टिफैक्ट के लिए)

RAM

सर्वर के लिए न्यूनतम 4 GB

पोर्ट्स

22 (SSH), 5000 (MLflow UI)

circle-info

MLflow ट्रैकिंग सर्वर हल्का है। आप इसे एक छोटे CPU इंस्टेंस पर चला सकते हैं और अपने GPU प्रशिक्षण जॉब्स को उस पर पॉइंट कर सकते हैं। वैकल्पिक रूप से, इसे अपने प्रशिक्षण GPU इंस्टेंस के साथ सह-स्थित करें।


चरण 1 — Clore.ai पर सर्वर किराए पर लें

  1. लॉग इन करें clore.aiarrow-up-right.

  2. पर क्लिक करें मार्केटप्लेस.

  3. एक समर्पित ट्रैकिंग सर्वर के लिए: RAM ≥ 8 GB द्वारा फ़िल्टर करें (GPU वैकल्पिक)।

  4. सह-स्थित के लिए: अपने मौजूदा प्रशिक्षण इंस्टेंस का उपयोग करें।

  5. Docker इमेज सेट करें: ghcr.io/mlflow/mlflow:latest

  6. खुले पोर्ट सेट करें: 22 (SSH) और 5000 (MLflow UI).

  7. पर क्लिक करें किराए पर लें.


चरण 2 — MLflow ट्रैकिंग सर्वर लॉन्च करें

आधिकारिक ghcr.io/mlflow/mlflow इमेज को स्टार्टअप कमांड ओवरराइड की आवश्यकता होती है।

Clore.ai डॉकर कॉन्फ़िगरेशन में

सेट करें कमान्ड (या एंट्रीपॉइंट ओवरराइड) को:

वैकल्पिक: कस्टम Dockerfile


चरण 3 — MLflow UI एक्सेस करें

अपने ब्राउज़र को खोलें:

आपको MLflow Experiments डैशबोर्ड दिखना चाहिए।

circle-info

डिफ़ॉल्ट SQLite बैकएंड (mlflow.db) सभी रन मेटाडेटा स्थानीय रूप से संग्रहीत करता है। उत्पादन या टीम उपयोग के लिए, PostgreSQL पर स्विच करें — नीचे उन्नत कॉन्फ़िगरेशन देखें।


चरण 4 — अपना पहला प्रयोग लॉग करें

रिमोट प्रशिक्षण जॉब से कनेक्ट करें

अपने प्रशिक्षण मशीन (या किसी अन्य Clore.ai इंस्टेंस) पर, ट्रैकिंग URI सेट करें:

बेसिक PyTorch प्रयोग लॉगिंग

HuggingFace Transformers ऑटो-लॉगिंग


चरण 5 — Autologging के साथ Scikit-learn


चरण 6 — मॉडल रजिस्ट्री

UI या API के माध्यम से मॉडल वर्ज़न रजिस्टर और प्रबंधित करें:


चरण 7 — एक मॉडल सर्व करें

MLflow किसी भी लॉग किए गए मॉडल को REST API के रूप में सर्व कर सकता है:

सर्व किए गए मॉडल का परीक्षण करें:


उन्नत कॉन्फ़िगरेशन

PostgreSQL बैकएंड (उत्पादन)

S3 आर्टिफैक्ट स्टोर

प्रमाणीकरण (एंटरप्राइज़)


UI में रन की तुलना करना

  1. MLflow UI खोलें: http://<clore-host>:<port>

  2. बाएँ पैनल से एक प्रयोग चुनें

  3. कई रन के बगल के बॉक्स को चेक करें

  4. पर क्लिक करें तुलना करें साइड-बाय-साइड मेट्रिक्स और पैरामीटर देखने के लिए

  5. उपयोग करें चार्ट्स विज़ुअल तुलना के लिए टैब


समस्या निवारण

ट्रैकिंग सर्वर से कनेक्ट नहीं कर पा रहे

समाधान:

  • जांचें कि पोर्ट 5000 Clore.ai में खुला और फॉरवर्ड किया गया है

  • सर्वर चल रहा है यह सत्यापित करें: ps aux | grep mlflow

  • कनेक्टिविटी का परीक्षण करें: curl http://<clore-host>:<port>/health

आर्टिफैक्ट अपलोड विफल होता है

समाधान: सुनिश्चित करें कि आर्टिफैक्ट निर्देशिका लिखने योग्य है:

SQLite लॉक त्रुटि (सह-कालिक लिखावट)

समाधान: मल्टी-यूज़र सेटअप के लिए PostgreSQL पर स्विच करें:

मॉडल रजिस्ट्र्री दिखाई नहीं दे रही

समाधान: सत्यापित करें कि आप उपयोग कर रहे हैं --backend-store-uri जो रजिस्ट्री का समर्थन करता है (SQLite या PostgreSQL — केवल स्थानीय पाथ नहीं)।


लागत अनुमान

इंस्टेंस
उपयोग केस
अनुमानित मूल्य
नोट्स

CPU 4-कोर

केवल ट्रैकिंग सर्वर

~$0.05/घंटा

बहुत हल्का

RTX 3080

सह-स्थित प्रशिक्षण

~$0.10/घंटा

प्रशिक्षण + MLflow

RTX 4090

भारी प्रशिक्षण + ट्रैकिंग

~$0.35/घंटा

सबसे सामान्य सेटअप

circle-info

MLflow को एक सस्ते CPU इंस्टेंस पर चलाएँ और सभी अपने GPU प्रशिक्षण जॉब्स को उससे पॉइंट करें। इस तरह ट्रैकिंग सर्वर लगातार चलता है बिना महंगे GPU क्रेडिट जलाए।


उपयोगी संसाधन


Clore.ai GPU सिफारिशें

उपयोग केस
सिफारिश की गई GPU
Clore.ai पर अनुमानित लागत

डेवलपमेंट/टेस्टिंग

RTX 3090 (24GB)

~$0.12/gpu/hr

उत्पादन प्रशिक्षण

RTX 4090 (24GB)

~$0.70/gpu/hr

बड़े पैमाने पर प्रयोग

A100 80GB

~$1.20/gpu/hr

💡 इस गाइड के सभी उदाहरण तैनात किए जा सकते हैं Clore.aiarrow-up-right GPU सर्वरों पर। उपलब्ध GPUs ब्राउज़ करें और घंटे के हिसाब से किराए पर लें — कोई प्रतिबद्धता नहीं, पूर्ण रूट एक्सेस।

Last updated

Was this helpful?