ClearML

circle-info

ClearML (anciennement Trains) est une plateforme MLOps open source pour le suivi d'expériences, la gestion des versions de données, la gestion des modèles, l'orchestration de pipelines et la gestion des ressources de calcul — le tout dans une suite unifiée.

Aperçu

ClearML est une plateforme complète de gestion du cycle de vie ML développée par Allegro AI. Elle capture automatiquement les paramètres d'expérience, les métriques, les artefacts et le code avec des modifications de code minimales. ClearML prend en charge l'ensemble du flux de travail ML : de la gestion des données et du suivi des expériences au registre de modèles, aux pipelines automatisés et à l'exécution distribuée des tâches sur des clusters GPU.

Propriété
Valeur

Catégorie

MLOps / Suivi d'expériences

Développeur

Allegro AI

Licence

Apache 2.0

Étoiles

5,5K+

Docker Hub

allegroai/clearml

Ports

22 (SSH), 8008 (API Server), 8081 (Web UI)


Architecture

ClearML se compose de quatre composants principaux :

Composant
Port
Description

ClearML Server

Coordinateur backend

Web UI

8081

Tableau de bord basé sur le navigateur

API Server

8008

API REST pour le SDK et les agents

File Server

8081

Stockage des artefacts et des modèles

ClearML Agent

Worker qui exécute les tâches ML


Fonctionnalités clés

  • Suivi d'expériences sans code — ajoutez 2 lignes de code pour tout capturer automatiquement

  • Journalisation automatique — métriques, paramètres, modèles, sortie console, graphiques, images

  • Intégration Git — capture automatique du commit git, du diff et des modifications non committées

  • Gestion des données — jeux de données versionnés avec suivi de lignage

  • Registre de modèles — stocker, versionner et servir des modèles ML

  • Orchestration de pipelines — construire et exécuter des pipelines ML multi-étapes

  • Exécution distante — mettre les expériences en file d'attente et les exécuter sur des workers GPU distants (ClearML Agent)

  • Optimisation d'hyperparamètres — HPO automatisée avec entraînement basé sur la population

  • Surveillance des ressources — surveillance GPU/CPU/RAM par expérience

  • Auto-hébergé ou cloud — exécutez votre propre serveur ou utilisez la plateforme hébergée de ClearML


Configuration Clore.ai

Option 1 — Serveur auto-hébergé complet

Exécutez le serveur ClearML sur Clore.ai pour un contrôle total.

Étape 1 — Choisir un serveur

Cas d'utilisation
Recommandé
VRAM
RAM

Serveur uniquement (sans entraînement)

Instance CPU

8 Go+

Serveur + entraînement

RTX 3080

10 Go

16 Go

Cluster MLOps complet

Plusieurs GPU

32 Go+

Étape 2 — Louer un serveur sur Clore.ai

  1. Aller sur clore.aiarrow-up-rightMarketplace

  2. Pour le composant : les instances CPU conviennent Pour

  3. les workers d'entraînement : instances GPU (RTX 3090, 4090, A100)Ouvrir les ports :

  4. Assurez-vous 22, 8008, 8081

  5. ≥ 50 Go de disque pour les artefacts d'expérience Étape 3 — Déployer avec Docker Compose

Créer

docker-compose.yml version : "3.6":

mkdir -p /opt/clearml/{logs,config,data/{fileserver,mongo,elastic,redis}}

circle-exclamation

Pour le suivi d'expériences sans exécuter de serveur, utilisez le plan hébergé gratuit :

# Installer le SDK


Tableau de bord Web

http://<server-ip>:8081

http://<server-ip>:8008

API Server

ssh root@<server-ip> -p 22


Installation

Configuration initiale

Saisissez l'URL de votre serveur (

) et les identifiants API depuis le tableau de bord.Via SSHOu configurez programmatiquement :

from clearml import Task


Intégration minimale (2 lignes)

# Initialiser la tâche — cela capture TOUT automatiquement

from clearml import Task, Logger

task = Task.init(project_name="HPO-Demo", task_name="run-001")


from clearml import Dataset


from clearml import Task, OutputModel, InputModel


from clearml.automation import PipelineController


Exécutez un ClearML Agent sur un serveur GPU pour exécuter les expériences en file d'attente :

# Installer l'agent

Optimisation d'hyperparamètres


from clearml.automation import (


task = Task.init(project_name="Production", task_name="monitoring")


Elasticsearch ne démarre pas

circle-exclamation
circle-exclamation
circle-info

— Vérifiez que CLEARML_API_HOST dans votre configuration SDK pointe vers , pas vers localhost. Via SSHEspace disque insuffisant

circle-info

— ClearML stocke tous les artefacts localement. Configurez le stockage S3/GCS ou augmentez l'allocation de disque dans Clore.ai. Problème

Correction
Connexion MongoDB refusée

Vérifier le conteneur mongo :

docker logs clearml_mongo_1 Tâche bloquée dans la file d'attente

Assurez-vous que ClearML Agent fonctionne et est connecté à la file d'attente

UI lente

Elasticsearch a besoin de temps pour indexer — attendre 2–3 min après le démarrage

API 401 Non autorisé

Régénérez les identifiants API dans le tableau de bord web ClearML

Cas d'utilisation pour les chercheurs GPU


Suivre les runs d'entraînement

  • — ne perdez plus jamais les hyperparamètres ou les résultats Comparer les expériences

  • — comparaison côte à côte des métriques dans l'UI Reproduire les résultats

  • — ClearML capture automatiquement le commit git et le diff de code Partager les résultats

  • — les collaborateurs voient toutes les expériences dans le tableau de bord partagé Jobs GPU distants

  • — mettre les jobs d'entraînement en file depuis le portable, exécuter sur les nœuds GPU Clore.ai HPO automatisé

  • — exécuter la recherche d'hyperparamètres sur plusieurs nœuds GPU en parallèle Outils connexes


MLflow


Recommandations GPU Clore.ai


GPU recommandé

Cas d'utilisation
Coût estimé sur Clore.ai
Développement/Test

RTX 3090 (24 Go)

~0,12 $/GPU/heure

Entraînement en production

RTX 4090 (24 Go)

~0,70 $/GPU/heure

Expériences à grande échelle

A100 80 Go

~1,20 $/GPU/heure

~1,20 $/GPU/heure

💡 Tous les exemples de ce guide peuvent être déployés sur Clore.aiarrow-up-right serveurs GPU. Parcourez les GPU disponibles et louez à l'heure — sans engagement, accès root complet.

Mis à jour

Ce contenu vous a-t-il été utile ?