MLflow

MLflow es una plataforma de código abierto para gestionar el completo ciclo de vida de Machine Learning — desde el seguimiento de experimentos y el versionado de modelos hasta el despliegue y la monitorización. Usado por miles de organizaciones en todo el mundo, MLflow aporta estructura y reproducibilidad a los flujos de trabajo de ML. Ejecútalo en la nube GPU de Clore.ai para obtener un servidor de seguimiento centralizado junto a tus trabajos de entrenamiento.


¿Qué es MLflow?

MLflow proporciona cuatro componentes principales:

Componente
Descripción

Seguimiento

Registra parámetros, métricas, artefactos y código de ejecuciones de ML

Proyectos

Empaquetar código para ejecuciones reproducibles

Modelos

Formato estándar de modelo para despliegue entre frameworks

Registro de Modelos

Almacén centralizado de modelos con versionado y ciclo de vida

Frameworks compatibles (autologging incorporado):

  • PyTorch, TensorFlow/Keras

  • Scikit-learn, XGBoost, LightGBM

  • HuggingFace Transformers

  • Spark MLlib, statsmodels, Prophet


Prerrequisitos

Requisito
Valor

VRAM GPU

Cualquiera (el servidor MLflow en sí está limitado por CPU)

Almacenamiento

20 GB+ (para artefactos)

RAM

4 GB mínimo para el servidor

Puertos

22 (SSH), 5000 (Interfaz MLflow)

circle-info

El servidor de seguimiento de MLflow es ligero. Puedes ejecutarlo en una instancia CPU pequeña y apuntar tus trabajos de entrenamiento en GPU hacia él. Alternativamente, ubícalo en la misma instancia GPU de entrenamiento.


Paso 1 — Alquilar un servidor en Clore.ai

  1. Inicia sesión en clore.aiarrow-up-right.

  2. Haz clic Marketplace.

  3. Para un servidor de seguimiento dedicado: filtra por RAM ≥ 8 GB (GPU opcional).

  4. Para co-ubicado: usa tu instancia de entrenamiento existente.

  5. Establecer imagen Docker: ghcr.io/mlflow/mlflow:latest

  6. Establecer puertos abiertos: 22 (SSH) y 5000 (Interfaz MLflow).

  7. Haz clic Alquilar.


Paso 2 — Lanzar el Servidor de Seguimiento MLflow

El oficial ghcr.io/mlflow/mlflow la imagen requiere anular el comando de inicio.

En la Configuración de Docker de Clore.ai

Configura el comando (o anulación del entrypoint) a:

Alternativa: Dockerfile Personalizado


Paso 3 — Acceder a la Interfaz MLflow

Abre tu navegador:

Deberías ver el panel de Experimentos de MLflow.

circle-info

El backend SQLite por defecto (mlflow.db) almacena todos los metadatos de las ejecuciones localmente. Para uso en producción o en equipo, cambia a PostgreSQL — consulta la Configuración Avanzada abajo.


Paso 4 — Registra Tu Primer Experimento

Conectar desde un Trabajo de Entrenamiento Remoto

En tu máquina de entrenamiento (u otra instancia de Clore.ai), establece el URI de seguimiento:

Registro básico de experimentos con PyTorch

Autoregistro de HuggingFace Transformers


Paso 5 — Scikit-learn con Autologging


Paso 6 — Registro de Modelos

Registra y gestiona versiones de modelos mediante la UI o la API:


Paso 7 — Servir un Modelo

MLflow puede servir cualquier modelo registrado como una API REST:

Probar el modelo servido:


Configuración avanzada

Backend PostgreSQL (Producción)

Almacén de Artefactos S3

Autenticación (Enterprise)


Comparar ejecuciones en la UI

  1. Abre la UI de MLflow en http://<clore-host>:<port>

  2. Selecciona un experimento en el panel izquierdo

  3. Marca las casillas junto a varias ejecuciones

  4. Haz clic Comparar para ver métricas y parámetros lado a lado

  5. Usa la Pestaña de Gráficos para comparación visual


Solución de problemas

No se puede conectar al servidor de seguimiento

Soluciones:

  • Comprueba que el puerto 5000 esté abierto y reenviado en Clore.ai

  • Verifica que el servidor esté en ejecución: ps aux | grep mlflow

  • Probar conectividad: curl http://<clore-host>:<port>/health

Fallo en la subida de artefactos

Solución: Asegúrate de que el directorio de artefactos sea escribible:

Error SQLite Bloqueado (Escrituras Concurrentes)

Solución: Cambia a PostgreSQL para configuraciones multiusuario:

El Registro de Modelos no aparece

Solución: Verifica que estés usando un --backend-store-uri que soporte el registro (SQLite o PostgreSQL — no solo una ruta local).


Estimación de Costos

Instancia
Caso de uso
Precio estimado
Notas

CPU 4 núcleos

Solo servidor de seguimiento

~$0.05/hr

Muy ligero

RTX 3080

Entrenamiento co-ubicado

~$0.10/hr

Entrenamiento + MLflow

RTX 4090

Entrenamiento pesado + seguimiento

~$0.35/hr

Configuración más común

circle-info

Ejecuta MLflow en una instancia CPU barata y apunta todos tus trabajos de entrenamiento en GPU hacia ella. De esta forma el servidor de seguimiento se ejecuta continuamente sin consumir caros créditos de GPU.


Recursos Útiles


Recomendaciones de GPU en Clore.ai

Caso de uso
GPU recomendada
Coste estimado en Clore.ai

Desarrollo/Pruebas

RTX 3090 (24GB)

~$0.12/gpu/hr

Entrenamiento en Producción

RTX 4090 (24GB)

~$0.70/gpu/hr

Experimentos a Gran Escala

A100 80GB

~$1.20/gpu/hr

💡 Todos los ejemplos en esta guía pueden desplegarse en Clore.aiarrow-up-right servidores GPU. Navega las GPUs disponibles y alquila por hora — sin compromisos, acceso root completo.

Última actualización

¿Te fue útil?