ClearML

circle-info

ClearML (anteriormente Trains) es una plataforma MLOps de código abierto para seguimiento de experimentos, versionado de datos, gestión de modelos, orquestación de pipelines y gestión de recursos de cómputo — todo en una suite unificada.

Resumen

ClearML es una plataforma integral de gestión del ciclo de vida de ML de Allegro AI. Captura automáticamente parámetros de experimentos, métricas, artefactos y código con cambios mínimos en el código. ClearML soporta el flujo de trabajo completo de ML: desde la gestión de datos y el seguimiento de experimentos hasta el registro de modelos, pipelines automatizados y ejecución distribuida de tareas en clusters GPU.

Propiedad
Valor

Categoría

MLOps / Seguimiento de experimentos

Desarrollador

Allegro AI

Licencia

Apache 2.0

Estrellas

5.5K+

Docker Hub

allegroai/clearml

Puertos

22 (SSH), 8008 (API Server), 8081 (Interfaz Web)


Arquitectura

ClearML consta de cuatro componentes principales:

Componente
Puerto
Descripción

ClearML Server

Coordinador backend

Interfaz Web

8081

Panel basado en navegador

API Server

8008

API REST para SDK y agentes

File Server

8081

Almacenamiento de artefactos y modelos

ClearML Agent

Trabajador que ejecuta tareas de ML


Características clave

  • Seguimiento de experimentos sin código — añade 2 líneas de código para capturar todo automáticamente

  • Registro automático — métricas, parámetros, modelos, salida de consola, gráficos, imágenes

  • Integración con Git — captura automática del commit, diff y cambios no comiteados

  • Gestión de datos — conjuntos de datos versionados con seguimiento de linaje

  • Registro de modelos — almacenar, versionar y servir modelos de ML

  • Orquestación de pipelines — construir y ejecutar pipelines ML de múltiples pasos

  • Ejecución remota — encolar experimentos y ejecutarlos en trabajadores GPU remotos (ClearML Agent)

  • Optimización de hiperparámetros — HPO automatizado con entrenamiento basado en población

  • Monitoreo de recursos — monitoreo GPU/CPU/RAM por experimento

  • Autohospedado o en la nube — ejecuta tu propio servidor o utiliza la plataforma hospedada de ClearML


Configuración en Clore.ai

Opción 1 — Servidor totalmente autohospedado

Ejecuta el servidor ClearML en Clore.ai para control total.

Paso 1 — Elige un servidor

Caso de uso
Recomendado
VRAM
RAM

Solo servidor (sin entrenamiento)

Instancia CPU

8 GB+

Servidor + entrenamiento

RTX 3080

10 GB

16 GB

Cluster MLOps completo

Múltiples GPUs

32 GB+

Paso 2 — Alquila un servidor en Clore.ai

  1. Ir a clore.aiarrow-up-rightMarketplace

  2. Para el componente servidor: las instancias CPU funcionan bien

  3. Para trabajadores de entrenamiento: instancias GPU (RTX 3090, 4090, A100)

  4. Abrir puertos: 22, 8008, 8081

  5. Asegúrate ≥ 50 GB de disco para artefactos de experimentos

Paso 3 — Desplegar con Docker Compose

Crear docker-compose.yml:

Iniciar la pila:

circle-exclamation

Opción 2 — Usar ClearML hospedado (Gratis)

Para seguimiento de experimentos sin ejecutar un servidor, utiliza el plan hospedado gratuito:


Accediendo a la interfaz

Panel web

Credenciales por defecto: crea tu cuenta en el primer inicio de sesión.

API Server

Vía SSH


Integración del SDK

Instalación

Configuración inicial

Introduce la URL de tu servidor (http://<server-ip>:8008) y las credenciales API desde el panel.

O configura programáticamente:


Seguimiento de experimentos

Integración mínima (2 líneas)

Registro manual de métricas

Seguimiento de hiperparámetros


Gestión de datos


Registro de modelos


Orquestación de pipelines


ClearML Agent (Trabajador)

Ejecuta un ClearML Agent en un servidor GPU para ejecutar experimentos encolados:

En Clore.ai, lanza múltiples nodos GPU como agentes ClearML para crear un clúster de cómputo distribuido.


Optimización de hiperparámetros


Monitoreo y alertas


Solución de problemas

circle-exclamation
circle-exclamation
circle-info

Los experimentos no aparecen en la interfaz — Comprueba que CLEARML_API_HOST en la configuración del SDK apunte a http://<server-ip>:8008, no a localhost.

circle-info

Espacio en disco insuficiente — ClearML almacena todos los artefactos localmente. Configura almacenamiento S3/GCS o aumenta la asignación de disco en Clore.ai.

Problema
Solución

Conexión a MongoDB rechazada

Comprueba el contenedor mongo: docker logs clearml_mongo_1

Tarea atascada en la cola

Asegúrate de que ClearML Agent esté en ejecución y conectado a la cola

Interfaz lenta

Elasticsearch necesita tiempo para indexar — espera 2–3 min después del arranque

API 401 Unauthorized

Regenera las credenciales API en el panel web de ClearML


Casos de uso para investigadores con GPU

  • Rastrear ejecuciones de entrenamiento — nunca pierdas hiperparámetros o resultados nuevamente

  • Comparar experimentos — comparación lado a lado de métricas en la interfaz

  • Reproducir resultados — ClearML captura commit de git + diff de código automáticamente

  • Compartir resultados — los colaboradores ven todos los experimentos en el panel compartido

  • Trabajos GPU remotos — encola trabajos de entrenamiento desde el portátil y ejecútalos en nodos GPU de Clore.ai

  • HPO automatizado — ejecutar búsqueda de hiperparámetros en múltiples nodos GPU en paralelo


Herramientas relacionadas


ClearML en Clore.ai combina el seguimiento de experimentos con la gestión de cómputo GPU — brindando a tu equipo de ML capacidades MLOps completas sin quedar atado a un proveedor de nube.


Recomendaciones de GPU para Clore.ai

Caso de uso
GPU recomendada
Costo estimado en Clore.ai

Desarrollo/Pruebas

RTX 3090 (24GB)

~$0.12/gpu/hr

Entrenamiento de producción

RTX 4090 (24GB)

~$0.70/gpu/hr

Experimentos a gran escala

A100 80GB

~$1.20/gpu/hr

💡 Todos los ejemplos en esta guía pueden desplegarse en Clore.aiarrow-up-right servidores GPU. Explora las GPUs disponibles y alquila por hora: sin compromisos, con acceso root completo.

Última actualización

¿Te fue útil?