MLflow

MLflow ist eine Open-Source-Plattform zur Verwaltung des kompletten Machine-Learning-Lebenszyklus — von Experimentverfolgung und Modellversionierung bis zu Bereitstellung und Überwachung. Von Tausenden Organisationen weltweit genutzt, bringt MLflow Struktur und Reproduzierbarkeit in ML-Workflows. Führen Sie es in Clore.ais GPU-Cloud aus, um einen zentralen Tracking-Server neben Ihren Trainingsjobs zu erhalten.


Was ist MLflow?

MLflow bietet vier Kernkomponenten:

Komponente
Beschreibung

Tracking

Protokollieren Sie Parameter, Metriken, Artefakte und Code von ML-Läufen

Projekte

Paketieren Sie Code für reproduzierbare Läufe

Modelle

Standardmodellformat für die Bereitstellung über verschiedene Frameworks hinweg

Model Registry

Zentrales Modell-Repository mit Versionierung und Lebenszyklus

Unterstützte Frameworks (eingebautes Autologging):

  • PyTorch, TensorFlow/Keras

  • Scikit-learn, XGBoost, LightGBM

  • HuggingFace Transformers

  • Spark MLlib, statsmodels, Prophet


Voraussetzungen

Anforderung
Wert

GPU-VRAM

Beliebig (der MLflow-Server selbst ist CPU-gebunden)

Speicher

20 GB+ (für Artefakte)

RAM

4 GB Minimum für den Server

Ports

22 (SSH), 5000 (MLflow UI)

circle-info

Der MLflow-Tracking-Server ist leichtgewichtig. Sie können ihn auf einer kleinen CPU-Instanz betreiben und Ihre GPU-Trainingsjobs darauf zeigen lassen. Alternativ können Sie ihn zusammen mit Ihrer GPU-Trainingsinstanz platzieren.


Schritt 1 — Miete einen Server bei Clore.ai

  1. Melden Sie sich an bei clore.aiarrow-up-right.

  2. Klicken Sie Marktplatz.

  3. Für einen dedizierten Tracking-Server: nach RAM ≥ 8 GB filtern (GPU optional).

  4. Für Co-Location: verwenden Sie Ihre bestehende Trainingsinstanz.

  5. Docker-Image festlegen: ghcr.io/mlflow/mlflow:latest

  6. Offene Ports festlegen: 22 (SSH) und 5000 (MLflow UI).

  7. Klicken Sie Mieten.


Schritt 2 — Starten des MLflow-Tracking-Servers

Das offizielle ghcr.io/mlflow/mlflow Image erfordert eine Überschreibung des Startbefehls.

In der Clore.ai Docker-Konfiguration

Setzen Sie das Kommando (oder Entry-Point-Überschreibung) auf:

Alternative: eigenes Dockerfile


Schritt 3 — Zugriff auf die MLflow-UI

Öffnen Sie Ihren Browser:

Sie sollten das MLflow-Experiments-Dashboard sehen.

circle-info

Das Standard-SQLite-Backend (mlflow.db) speichert alle Run-Metadaten lokal. Für Produktion oder Teamgebrauch wechseln Sie zu PostgreSQL — siehe Erweiterte Konfiguration weiter unten.


Schritt 4 — Protokollieren Sie Ihr erstes Experiment

Verbindung von einem entfernten Trainingsjob herstellen

Auf Ihrer Trainingsmaschine (oder einer anderen Clore.ai-Instanz) setzen Sie die Tracking-URI:

Grundlegendes PyTorch-Experiment-Logging

HuggingFace Transformers Autologging


Schritt 5 — Scikit-learn mit Autologging


Schritt 6 — Model Registry

Registrieren und verwalten Sie Modellversionen über die UI oder API:


Schritt 7 — Ein Modell bereitstellen

MLflow kann jedes protokollierte Modell als REST-API bereitstellen:

Testen Sie das bereitgestellte Modell:


Erweiterte Konfiguration

PostgreSQL-Backend (Produktion)

S3-Artefaktspeicher

Authentifizierung (Enterprise)


Vergleich von Runs in der UI

  1. Öffnen Sie die MLflow-UI unter http://<clore-host>:<port>

  2. Wählen Sie ein Experiment im linken Bereich aus

  3. Markieren Sie die Kästchen neben mehreren Runs

  4. Klicken Sie Vergleichen um Metriken und Parameter nebeneinander anzuzeigen

  5. Verwenden Sie die Diagramme Registerkarte für visuelle Vergleiche


Fehlerbehebung

Kann keine Verbindung zum Tracking-Server herstellen

Lösungen:

  • Prüfen Sie, dass Port 5000 in Clore.ai offen und weitergeleitet ist

  • Verifizieren Sie, dass der Server läuft: ps aux | grep mlflow

  • Testen Sie die Konnektivität: curl http://<clore-host>:<port>/health

Artefakt-Upload schlägt fehl

Lösung: Stellen Sie sicher, dass das Artefaktverzeichnis beschreibbar ist:

SQLite-gesperrter Fehler (gleichzeitige Schreibzugriffe)

Lösung: Wechseln Sie für Multi-User-Setups zu PostgreSQL:

Model Registry wird nicht angezeigt

Lösung: Vergewissern Sie sich, dass Sie ein --backend-store-uri verwenden, das die Registry unterstützt (SQLite oder PostgreSQL — nicht nur ein lokaler Pfad).


Kostenabschätzung

Instanz
Anwendungsfall
Geschätzter Preis
Hinweise

CPU 4-Kern

Nur Tracking-Server

~$0.05/Stunde

Sehr leichtgewichtig

RTX 3080

Koinstalliertes Training

~$0.10/Stunde

Training + MLflow

RTX 4090

Schweres Training + Tracking

~$0.35/Stunde

Häufigste Konfiguration

circle-info

Führen Sie MLflow auf einer günstigen CPU-Instanz aus und lassen Sie alle Ihre GPU-Trainingsjobs darauf zeigen. Auf diese Weise läuft der Tracking-Server kontinuierlich, ohne teure GPU-Credits zu verbrauchen.


Nützliche Ressourcen


Clore.ai GPU-Empfehlungen

Anwendungsfall
Empfohlene GPU
Geschätzte Kosten auf Clore.ai

Entwicklung/Tests

RTX 3090 (24GB)

~$0.12/gpu/hr

Produktions-Training

RTX 4090 (24GB)

~$0.70/gpu/hr

Großangelegte Experimente

A100 80GB

~$1.20/gpu/hr

💡 Alle Beispiele in diesem Leitfaden können bereitgestellt werden auf Clore.aiarrow-up-right GPU-Servern. Durchsuchen Sie verfügbare GPUs und mieten Sie stundenweise — keine Verpflichtungen, voller Root-Zugriff.

Zuletzt aktualisiert

War das hilfreich?