MLflow

MLflow est une plate-forme open-source pour gérer l'ensemble du cycle de vie de l'apprentissage automatique — depuis le suivi des expériences et la gestion des versions des modèles jusqu'au déploiement et à la surveillance. Utilisé par des milliers d'organisations dans le monde, MLflow apporte de la structure et de la reproductibilité aux flux de travail ML. Exécutez-le sur le cloud GPU de Clore.ai pour obtenir un serveur de suivi centralisé aux côtés de vos tâches d'entraînement.


Qu'est-ce que MLflow ?

MLflow fournit quatre composants principaux :

Composant
Description

Suivi

Enregistrez les paramètres, métriques, artefacts et code des exécutions ML

Projets

Packager le code pour des exécutions reproductibles

Modèles

Format standard de modèle pour le déploiement entre frameworks

Registre de modèles

Magasin centralisé de modèles avec gestion des versions et cycle de vie

Frameworks pris en charge (autologging intégré) :

  • PyTorch, TensorFlow/Keras

  • Scikit-learn, XGBoost, LightGBM

  • HuggingFace Transformers

  • Spark MLlib, statsmodels, Prophet


Prérequis

Exigence
Valeur

VRAM GPU

N'importe lequel (le serveur MLflow lui-même est lié au CPU)

Stockage

20 Go+ (pour les artefacts)

RAM

4 Go minimum pour le serveur

Ports

22 (SSH), 5000 (interface MLflow)

circle-info

Le serveur de suivi MLflow est léger. Vous pouvez l'exécuter sur une petite instance CPU et y connecter vos tâches d'entraînement GPU. Alternativement, hébergez-le sur la même instance GPU que votre entraînement.


Étape 1 — Louer un serveur sur Clore.ai

  1. Connectez-vous à clore.aiarrow-up-right.

  2. Cliquez Place de marché.

  3. Pour un serveur de suivi dédié : filtrez par RAM ≥ 8 Go (GPU optionnel).

  4. Pour co-localisé : utilisez votre instance d'entraînement existante.

  5. Définir l'image Docker : ghcr.io/mlflow/mlflow:latest

  6. Définir les ports ouverts : 22 (SSH) et 5000 (Interface MLflow).

  7. Cliquez Louez.


Étape 2 — Lancer le serveur de suivi MLflow

L'officiel ghcr.io/mlflow/mlflow image requiert une substitution de commande de démarrage.

Dans la configuration Docker de Clore.ai

Définissez la commande (ou substitution de point d'entrée) sur :

Alternative : Dockerfile personnalisé


Étape 3 — Accéder à l'interface MLflow

Ouvrez votre navigateur :

Vous devriez voir le tableau de bord des expériences MLflow.

circle-info

Le backend SQLite par défaut (mlflow.db) stocke toutes les métadonnées des exécutions localement. Pour une utilisation en production ou en équipe, passez à PostgreSQL — voir Configuration avancée ci-dessous.


Étape 4 — Enregistrez votre première expérience

Connectez-vous depuis une tâche d'entraînement distante

Sur votre machine d'entraînement (ou une autre instance Clore.ai), définissez l'URI de suivi :

Journalisation d'expérience PyTorch basique

Autologging pour HuggingFace Transformers


Étape 5 — Scikit-learn avec autologging


Étape 6 — Registre de modèles

Enregistrez et gérez les versions de modèles via l'interface ou l'API :


Étape 7 — Servir un modèle

MLflow peut servir n'importe quel modèle enregistré en tant qu'API REST :

Testez le modèle servi :


Configuration avancée

Backend PostgreSQL (Production)

Stockage d'artefacts S3

Authentification (Entreprise)


Comparer des exécutions dans l'interface

  1. Ouvrez l'interface MLflow à http://<clore-host>:<port>

  2. Sélectionnez une expérience depuis le panneau de gauche

  3. Cochez les cases à côté de plusieurs exécutions

  4. Cliquez Comparer pour voir métriques et paramètres côte à côte

  5. Utilisez le Graphiques onglet pour une comparaison visuelle


Dépannage

Impossible de se connecter au serveur de suivi

Solutions :

  • Vérifiez que le port 5000 est ouvert et transféré dans Clore.ai

  • Vérifiez que le serveur est en cours d'exécution : ps aux | grep mlflow

  • Tester la connectivité : curl http://<clore-host>:<port>/health

Échec du téléchargement d'artefact

Solution : Assurez-vous que le répertoire d'artefacts est accessible en écriture :

Erreur SQLite verrouillée (écritures concurrentes)

Solution : Passez à PostgreSQL pour les configurations multi-utilisateurs :

Registre de modèles non visible

Solution : Vérifiez que vous utilisez un --backend-store-uri qui prend en charge le registre (SQLite ou PostgreSQL — pas seulement un chemin local).


Estimation des coûts

Instance
Cas d’utilisation
Prix estimé
Remarques

CPU 4 cœurs

Serveur de suivi uniquement

~0,05 $/h

Très léger

RTX 3080

Entraînement co-localisé

~0,10 $/h

Entraînement + MLflow

RTX 4090

Entraînement lourd + suivi

~0,35 $/h

Configuration la plus courante

circle-info

Exécutez MLflow sur une instance CPU bon marché et pointez toutes vos tâches d'entraînement GPU vers celui-ci. Ainsi, le serveur de suivi tourne en continu sans consommer de crédits GPU coûteux.


Ressources utiles


Recommandations GPU Clore.ai

Cas d’utilisation
GPU recommandé
Coût estimé sur Clore.ai

Développement/Test

RTX 3090 (24GB)

~$0.12/gpu/hr

Entraînement en production

RTX 4090 (24GB)

~$0.70/gpu/hr

Expériences à grande échelle

A100 80GB

~$1.20/gpu/hr

💡 Tous les exemples de ce guide peuvent être déployés sur Clore.aiarrow-up-right serveurs GPU. Parcourez les GPU disponibles et louez à l’heure — sans engagement, avec accès root complet.

Mis à jour

Ce contenu vous a-t-il été utile ?