ClearML
ClearML (पूर्व में Trains) एक ओपन-सोर्स MLOps प्लेटफ़ॉर्म है जो प्रयोग ट्रैकिंग, डेटा संस्करणन, मॉडल प्रबंधन, पाइपलाइन ऑर्केस्ट्रेशन और कंप्यूट संसाधन प्रबंधन के लिए एकीकृत सूट में सभी सुविधाएँ प्रदान करता है।
अवलोकन
ClearML Allegro AI का एक व्यापक ML लाइफसाइकल प्रबंधन प्लेटफ़ॉर्म है। यह न्यूनतम कोड परिवर्तनों के साथ स्वतः प्रयोग के पैरामीटर, मीट्रिक्स, आर्टिफैक्ट और कोड को कैप्चर करता है। ClearML पूरे ML वर्कफ़्लो का समर्थन करता है: डेटा प्रबंधन और प्रयोग ट्रैकिंग से लेकर मॉडल रजिस्ट्री, स्वचालित पाइपलाइनों और GPU क्लस्टरों पर वितरित कार्य निष्पादन तक।
श्रेणी
MLOps / प्रयोग ट्रैकिंग
डेवलपर
Allegro AI
लाइसेंस
Apache 2.0
GitHub
स्टार्स
5.5K+
Docker Hub
allegroai/clearml
पोर्ट्स
22 (SSH), 8008 (API सर्वर), 8081 (वेब UI)
आर्किटेक्चर
ClearML चार मुख्य घटकों से मिलकर बनता है:
ClearML सर्वर
—
बैकएंड समन्वयक
वेब UI
8081
ब्राउज़र-आधारित डैशबोर्ड
API सर्वर
8008
SDK और एजेंट्स के लिए REST API
फाइल सर्वर
8081
आर्टिफैक्ट और मॉडल स्टोरेज
ClearML एजेंट
—
ML टास्क निष्पादित करने वाला वर्कर
मुख्य विशेषताएँ
ज़ीरो-कोड प्रयोग ट्रैकिंग — सब कुछ स्वतः कैप्चर करने के लिए 2 लाइनें कोड जोड़ें
स्वचालित लॉगिंग — मीट्रिक्स, पैरामीटर, मॉडल, कंसोल आउटपुट, प्लॉट्स, इमेजेज़
Git एकीकरण — git कमिट, डिफ़ और अनकमिट किए गए परिवर्तनों को स्वतः कैप्चर करें
डेटा प्रबंधन — लीनेज ट्रैकिंग के साथ versioned datasets
मॉडल रजिस्ट्री — ML मॉडलों को स्टोर, संस्करण और सर्व करें
पाइपलाइन ऑर्केस्ट्रेशन — बहु-स्टेप ML पाइपलाइनों का निर्माण और चलाना
रिमोट निष्पादन — प्रयोगों को कतारबद्ध करें और रिमोट GPU वर्कर्स (ClearML एजेंट) पर चलाएँ
हाइपरपैरामीटर ऑप्टिमाइज़ेशन — पॉपुलेशन-आधारित ट्रेनिंग के साथ स्वचालित HPO
संसाधन मॉनिटरिंग — प्रति प्रयोग GPU/CPU/RAM मॉनिटरिंग
स्व-होस्टेड या क्लाउड — अपना सर्वर चलाएँ या ClearML का होस्टेड प्लेटफ़ॉर्म उपयोग करें
Clore.ai सेटअप
विकल्प 1 — पूर्ण स्व-होस्टेड सर्वर
पूर्ण नियंत्रण के लिए ClearML सर्वर Clore.ai पर चलाएँ।
चरण 1 — एक सर्वर चुनें
केवल सर्वर (कोई प्रशिक्षण नहीं)
CPU इंस्टेंस
—
8 GB+
सर्वर + प्रशिक्षण
RTX 3080
10 GB
16 GB
पूर्ण MLOps क्लस्टर
कई GPUs
—
32 GB+
चरण 2 — Clore.ai पर सर्वर किराए पर लें
जाएँ clore.ai → मार्केटप्लेस
के लिए सर्वर घटक: CPU इंस्टेंस ठीक काम करते हैं
के लिए प्रशिक्षण वर्कर्स: GPU इंस्टेंस (RTX 3090, 4090, A100)
खुले पोर्ट: 22, 8008, 8081
सुनिश्चित करें ≥ 50 GB डिस्क प्रयोग आर्टिफैक्ट के लिए
चरण 3 — Docker Compose के साथ डिप्लॉय करें
बनाएँ docker-compose.yml:
स्टैक शुरू करें:
ClearML सर्वर को पूर्ण स्टैक (MongoDB + Elasticsearch + Redis + API सर्वर + WebUI) के लिए ~4 GB RAM की आवश्यकता होती है। सुनिश्चित करें कि आपकी Clore.ai इंस्टेंस में पर्याप्त RAM हो।
विकल्प 2 — ClearML Hosted (फ्री) उपयोग करें
सर्वर चलाए बिना प्रयोग ट्रैकिंग के लिए फ्री होस्टेड प्लान का उपयोग करें:
इंटरफ़ेस तक पहुँच
वेब डैशबोर्ड
डिफ़ॉल्ट क्रेडेंशियल्स: पहले लॉगिन पर अपना अकाउंट बनाएं।
API सर्वर
SSH के माध्यम से
SDK एकीकरण
इंस्टॉलेशन
प्रारम्भिक कॉन्फ़िगरेशन
अपने सर्वर URL दर्ज करें (http://<server-ip>:8008) और डैशबोर्ड से API क्रेडेंशियल्स।
या प्रोग्रामेटिक रूप से कॉन्फ़िगर करें:
प्रयोग ट्रैक करना
न्यूनतम एकीकरण (2 लाइनें)
मैनुअल मीट्रिक लॉगिंग
हाइपरपैरामीटर ट्रैकिंग
डेटा प्रबंधन
मॉडल रजिस्ट्री
पाइपलाइन ऑर्केस्ट्रेशन
ClearML एजेंट (वर्कर)
कतारबद्ध प्रयोगों को निष्पादित करने के लिए GPU सर्वर पर ClearML एजेंट चलाएँ:
Clore.ai पर, वितरित कंप्यूट क्लस्टर बनाने के लिए कई GPU नोड्स को ClearML एजेंट्स के रूप में स्पिन अप करें।
हाइपरपैरामीटर ऑप्टिमाइज़ेशन
मॉनिटरिंग और अलर्ट्स
ट्रबलशूटिंग
Elasticsearch शुरू नहीं हो रहा है — सेट करें vm.max_map_count=262144 होस्ट पर: sysctl -w vm.max_map_count=262144. जोड़ें /etc/sysctl.conf स्थायित्व के लिए।
सर्वर से कनेक्ट नहीं कर पा रहे — Clore.ai पोर्ट सेटिंग्स में सुनिश्चित करें कि 8008 और 8081 पोर्ट खुलें हैं। जाँच करें docker ps यह सुनिश्चित करने के लिए कि सभी कंटेनर चल रहे हैं।
प्रयोग UI में दिखाई नहीं रहे — जाँच करें कि CLEARML_API_HOST आपके SDK कॉन्फ़िग में यह दर्शाता है http://<server-ip>:8008, न कि localhost।
डिस्क स्पेस समाप्त — ClearML सभी आर्टिफैक्ट स्थानीय रूप से स्टोर करता है। S3/GCS स्टोरेज कॉन्फ़िगर करें या Clore.ai में डिस्क एलोकेशन बढ़ाएँ।
MongoDB कनेक्शन अस्वीकृत
mongo कंटेनर की जाँच करें: docker logs clearml_mongo_1
टास्क कतार में अटक गया
सुनिश्चित करें कि ClearML एजेंट चल रहा है और क्यू से जुड़ा हुआ है
UI धीमा
Elasticsearch को इंडेक्स करने में समय चाहिए — स्टार्टअप के 2–3 मिनट प्रतीक्षा करें
API 401 अनअथॉराइज़्ड
ClearML वेब डैशबोर्ड में API क्रेडेंशियल्स पुनः उत्पन्न करें
GPU शोधकर्ताओं के लिए उपयोग मामले
प्रशिक्षण रन ट्रैक करें — हाइपरपैरामीटर या परिणाम कभी खोएँ नहीं
प्रयोगों की तुलना करें — UI में बगल-बगल मीट्रिक तुलना
परिणाम पुनरुत्पादन करें — ClearML स्वतः git कमिट + कोड डिफ़ कैप्चर करता है
परिणाम साझा करें — सहयोगी साझा डैशबोर्ड में सभी प्रयोग देख सकते हैं
रिमोट GPU जॉब्स — लैपटॉप से प्रशिक्षण जॉब्स कतारबद्ध करें, Clore.ai GPU नोड्स पर चलाएँ
स्वचालित HPO — कई GPU नोड्स पर समानांतर रूप से हाइपरपैरामीटर सर्च चलाएँ
संबंधित टूल्स
MLflow — प्रयोग ट्रैकिंग विकल्प
Weights & Biases — होस्टेड ML प्रयोग ट्रैकिंग
Ray — वितरित ML प्रशिक्षण और HPO
Clore.ai पर ClearML प्रयोग ट्रैकिंग को GPU कंप्यूट प्रबंधन के साथ जोड़ता है — आपकी ML टीम को क्लाउड वेंडर लॉक-इन के बिना पूर्ण MLOps क्षमताएं देता है।
Clore.ai GPU सिफारिशें
डेवलपमेंट/टेस्टिंग
RTX 3090 (24GB)
~$0.12/gpu/hr
उत्पादन प्रशिक्षण
RTX 4090 (24GB)
~$0.70/gpu/hr
बड़े पैमाने पर प्रयोग
A100 80GB
~$1.20/gpu/hr
💡 इस गाइड में सभी उदाहरणों को पर तैनात किया जा सकता है Clore.ai GPU सर्वर। उपलब्ध GPU ब्राउज़ करें और प्रति घंटे किराए पर लें — कोई प्रतिबद्धताएँ नहीं, पूर्ण रूट एक्सेस।
Last updated
Was this helpful?