MLflow

MLflow — это платформа с открытым исходным кодом для управления полным жизненным циклом машинного обучения — от отслеживания экспериментов и версионирования моделей до деплоя и мониторинга. Используемый тысячами организаций по всему миру, MLflow привносит структуру и воспроизводимость в рабочие процессы ML. Запустите его в GPU-облаке Clore.ai, чтобы получить централизованный сервер отслеживания рядом с вашими задачами обучения.


Что такое MLflow?

MLflow предоставляет четыре основных компонента:

Компонент
Описание

Отслеживание

Логгирование параметров, метрик, артефактов и кода из ML-запусков

Проекты

Упаковка кода для воспроизводимых запусков

Модели

Стандартный формат модели для развертывания в разных фреймворках

Регистр моделей

Централизованное хранилище моделей с версионированием и жизненным циклом

Поддерживаемые фреймворки (встроенное автологирование):

  • PyTorch, TensorFlow/Keras

  • Scikit-learn, XGBoost, LightGBM

  • HuggingFace Transformers

  • Spark MLlib, statsmodels, Prophet


Требования

Требование
Значение

VRAM GPU

Любой (сам сервер MLflow нагружает CPU)

Хранилище

20 ГБ+ (для артефактов)

ОЗУ

Минимум 4 ГБ для сервера

Порты

22 (SSH), 5000 (интерфейс MLflow)

circle-info

Сервер отслеживания MLflow лёгкий. Вы можете запустить его на небольшой CPU-инстансе и направлять на него ваши GPU-задачи обучения. Альтернативно, разместите его вместе с вашим GPU-инстансом для обучения.


Шаг 1 — Арендуйте сервер на Clore.ai

  1. Войдите в clore.aiarrow-up-right.

  2. Нажмите Маркетплейс.

  3. Для выделенного сервера отслеживания: фильтруйте по RAM ≥ 8 ГБ (GPU необязательно).

  4. Для совместного размещения: используйте ваш существующий инстанс для обучения.

  5. Установите Docker-образ: ghcr.io/mlflow/mlflow:latest

  6. Установите открытые порты: 22 (SSH) и 5000 (интерфейс MLflow).

  7. Нажмите Арендовать.


Шаг 2 — Запустите сервер отслеживания MLflow

Официальный ghcr.io/mlflow/mlflow образ требует переопределения команды запуска.

В конфигурации Docker Clore.ai

Установите команду (или переопределение entrypoint) в:

Альтернатива: собственный Dockerfile


Шаг 3 — Доступ к интерфейсу MLflow

Откройте ваш браузер:

Вы должны увидеть панель экспериментов MLflow.

circle-info

Бэкенд по умолчанию — SQLite (mlflow.db) хранит все метаданные запусков локально. Для продакшна или командного использования переключитесь на PostgreSQL — см. раздел «Расширенная конфигурация» ниже.


Шаг 4 — Залогируйте ваш первый эксперимент

Подключение из удалённой задачи обучения

На вашей машине для обучения (или другом инстансе Clore.ai) установите URI отслеживания:

Базовое логгирование эксперимента PyTorch

Автологирование HuggingFace Transformers


Шаг 5 — Scikit-learn с автологированием


Шаг 6 — Регистр моделей

Регистрируйте и управляйте версиями моделей через UI или API:


Шаг 7 — Обслуживание модели

MLflow может обслуживать любую залогированную модель как REST API:

Протестируйте обслуживаемую модель:


Расширенные настройки

PostgreSQL в качестве бэкенда (продакшн)

Хранилище артефактов S3

Аутентификация (Enterprise)


Сравнение запусков в интерфейсе

  1. Откройте MLflow UI по адресу http://<clore-host>:<port>

  2. Выберите эксперимент в левой панели

  3. Отметьте флажками несколько запусков

  4. Нажмите Сравнить чтобы увидеть метрики и параметры бок о бок

  5. Используйте вкладку Графики для визуального сравнения


Устранение неполадок

Не удаётся подключиться к серверу отслеживания

Решения:

  • Проверьте, открыт ли порт 5000 и перенаправлен в Clore.ai

  • Убедитесь, что сервер запущен: ps aux | grep mlflow

  • Проверьте соединение: curl http://<clore-host>:<port>/health

Загрузка артефактов не удалась

Решение: Убедитесь, что директория артефактов доступна для записи:

Ошибка блокировки SQLite (конкурентные записи)

Решение: Переключитесь на PostgreSQL для многопользовательских настроек:

Регистр моделей не отображается

Решение: Убедитесь, что вы используете --backend-store-uri который поддерживает регистр (SQLite или PostgreSQL — а не просто локальный путь).


Оценка стоимости

Инстанс
Сценарий использования
Примерная цена
Примечания

CPU 4‑ядра

Только сервер отслеживания

~$0.05/ч

Очень лёгкий

RTX 3080

Совместное размещение с обучением

~$0.10/час

Обучение + MLflow

RTX 4090

Интенсивное обучение + отслеживание

~$0.35/час

Наиболее распространённая конфигурация

circle-info

Запустите MLflow на дешёвом CPU-инстансе и направляйте на него все ваши GPU-задачи обучения. Так сервер отслеживания работает постоянно, не расходуя дорогие GPU-часы.


Полезные ресурсы


Рекомендации Clore.ai по GPU

Сценарий использования
Рекомендуемый GPU
Примерная стоимость на Clore.ai

Разработка/Тестирование

RTX 3090 (24GB)

~$0.12/gpu/hr

Продакшн-обучение

RTX 4090 (24GB)

~$0.70/gpu/hr

Эксперименты в крупном масштабе

A100 80GB

~$1.20/gpu/hr

💡 Все примеры в этом руководстве можно развернуть на Clore.aiarrow-up-right GPU-серверах. Просматривайте доступные GPU и арендуйте по часам — без обязательств, с полным root-доступом.

Последнее обновление

Это было полезно?