ClearML

circle-info

ClearML (früher Trains) ist eine Open-Source-MLOps-Plattform für Experimentverfolgung, Datenversionierung, Modellverwaltung, Pipeline-Orchestrierung und Verwaltung von Rechenressourcen – alles in einer einheitlichen Suite.

Überblick

ClearML ist eine umfassende Plattform zur Verwaltung des ML-Lebenszyklus von Allegro AI. Sie erfasst automatisch Experimentparameter, Metriken, Artefakte und Code mit minimalen Codeänderungen. ClearML unterstützt den vollständigen ML-Workflow: von Datenmanagement und Experimentverfolgung bis hin zu Modell-Registry, automatisierten Pipelines und verteilter Ausführung von Aufgaben auf GPU-Clustern.

Eigenschaft
Wert

Kategorie

MLOps / Experimentverfolgung

Entwickler

Allegro AI

Lizenz

Apache 2.0

Sterne

5,5K+

Docker Hub

allegroai/clearml

Ports

22 (SSH), 8008 (API-Server), 8081 (Web-UI)


Architektur

ClearML besteht aus vier Hauptkomponenten:

Komponente
Port
Beschreibung

ClearML Server

Backend-Koordinator

Web-UI

8081

Browser-basiertes Dashboard

API-Server

8008

REST-API für SDK und Agents

File Server

8081

Speicher für Artefakte und Modelle

ClearML Agent

Worker, der ML-Aufgaben ausführt


Wesentliche Merkmale

  • Zero-Code-Experimentverfolgung — füge 2 Codezeilen hinzu, um alles automatisch zu erfassen

  • Automatisches Logging — Metriken, Parameter, Modelle, Konsolenausgabe, Plots, Bilder

  • Git-Integration — automatisches Erfassen des Git-Commits, Diffs und unkommittierter Änderungen

  • Datenmanagement — versionierte Datensätze mit Lineage-Tracking

  • Modell-Registry — Modelle speichern, versionieren und bereitstellen

  • Pipeline-Orchestrierung — mehrstufige ML-Pipelines erstellen und ausführen

  • Remote-Ausführung — Experimente in die Warteschlange stellen und auf entfernten GPU-Workern (ClearML Agent) ausführen

  • Hyperparameter-Optimierung — automatisierte HPO mit populationsbasierendem Training

  • Ressourcenüberwachung — GPU/CPU/RAM-Überwachung pro Experiment

  • Selbst gehostet oder Cloud — betreibe deinen eigenen Server oder nutze ClearMLs gehostete Plattform


Clore.ai Einrichtung

Option 1 — Vollständig selbst gehosteter Server

Führe den ClearML-Server auf Clore.ai aus, um volle Kontrolle zu haben.

Schritt 1 — Wähle einen Server

Anwendungsfall
Empfohlen
VRAM
RAM

Nur Server (kein Training)

CPU-Instanz

8 GB+

Server + Training

RTX 3080

10 GB

16 GB

Vollständiger MLOps-Cluster

Mehrere GPUs

32 GB+

Schritt 2 — Miete einen Server auf Clore.ai

  1. Gehe zu clore.aiarrow-up-rightMarktplatz

  2. Für die Server- Komponente: CPU-Instanzen funktionieren gut

  3. Für Training-Worker: GPU-Instanzen (RTX 3090, 4090, A100)

  4. Offene Ports: 22, 8008, 8081

  5. Stelle sicher ≥ 50 GB Festplatte für Experiment-Artefakte

Schritt 3 — Deployment mit Docker Compose

Erstelle docker-compose.yml:

Starte den Stack:

circle-exclamation

Option 2 — Nutze ClearML Hosted (kostenlos)

Für Experimentverfolgung ohne eigenen Server nutze den kostenlosen gehosteten Plan:


Zugriff auf die Oberfläche

Web-Dashboard

Standard-Anmeldedaten: Erstelle dein Konto beim ersten Login.

API-Server

Per SSH


SDK-Integration

Installation

Erstkonfiguration

Gib deine Server-URL ein (http://<server-ip>:8008) und die API-Zugangsdaten aus dem Dashboard.

Oder programmgesteuert konfigurieren:


Experimente verfolgen

Minimale Integration (2 Zeilen)

Manuelles Metriken-Logging

Hyperparameter-Tracking


Datenmanagement


Modell-Registry


Pipeline-Orchestrierung


ClearML Agent (Worker)

Führe einen ClearML Agent auf einem GPU-Server aus, um wartende Experimente zu bearbeiten:

Auf Clore.ai kannst du mehrere GPU-Knoten als ClearML-Agents starten, um ein verteiltes Compute-Cluster zu erstellen.


Hyperparameter-Optimierung


Überwachung & Alerts


Fehlerbehebung

circle-exclamation
circle-exclamation
circle-info

Experimente erscheinen nicht in der UI — Prüfe, dass CLEARML_API_HOST in deiner SDK-Konfiguration auf http://<server-ip>:8008, nicht auf localhost zeigt.

circle-info

Festplattenspeicher erschöpft — ClearML speichert alle Artefakte lokal. Konfiguriere S3/GCS-Speicher oder erhöhe die Festplattenzuweisung in Clore.ai.

Problem
Behebung

MongoDB-Verbindung abgelehnt

Prüfe den mongo-Container: docker logs clearml_mongo_1

Task hängt in der Warteschlange

Stelle sicher, dass der ClearML Agent läuft und mit der Warteschlange verbunden ist

Langsame UI

Elasticsearch braucht Zeit zum Indexieren — warte 2–3 Minuten nach dem Start

API 401 Unauthorized

Erzeuge API-Zugangsdaten neu im ClearML-Web-Dashboard


Anwendungsfälle für GPU-Forschende

  • Trainingsläufe verfolgen — verliere niemals wieder Hyperparameter oder Ergebnisse

  • Experimente vergleichen — nebeneinander Metrikvergleiche in der UI

  • Ergebnisse reproduzieren — ClearML erfasst automatisch Git-Commit + Code-Diff

  • Ergebnisse teilen — Mitarbeitende sehen alle Experimente im gemeinsamen Dashboard

  • Remotegpu-Jobs — Trainingsjobs vom Laptop in die Warteschlange stellen und auf Clore.ai GPU-Knoten ausführen

  • Automatisierte HPO — Hyperparameter-Suche parallel über mehrere GPU-Knoten ausführen


Verwandte Tools


ClearML auf Clore.ai kombiniert Experimentverfolgung mit GPU-Compute-Management — und bietet deinem ML-Team vollständige MLOps-Fähigkeiten ohne Bindung an einen Cloud-Anbieter.


Clore.ai GPU-Empfehlungen

Anwendungsfall
Empfohlene GPU
Geschätzte Kosten auf Clore.ai

Entwicklung/Test

RTX 3090 (24GB)

~$0.12/GPU/Stunde

Produktions-Training

RTX 4090 (24GB)

~$0.70/GPU/Stunde

Groß angelegte Experimente

A100 80GB

~$1.20/GPU/Stunde

💡 Alle Beispiele in diesem Leitfaden können bereitgestellt werden auf Clore.aiarrow-up-right GPU-Server. Durchsuchen Sie verfügbare GPUs und mieten Sie stundenweise — keine Verpflichtungen, voller Root-Zugriff.

Zuletzt aktualisiert

War das hilfreich?