ClearML

circle-info

ClearML (ранее Trains) — это открытая платформа MLOps для отслеживания экспериментов, версионирования данных, управления моделями, оркестрации пайплайнов и управления вычислительными ресурсами — всё в одном унифицированном наборе.

Обзор

ClearML — это комплексная платформа управления жизненным циклом ML от Allegro AI. Она автоматически сохраняет параметры экспериментов, метрики, артефакты и код с минимальными изменениями в коде. ClearML поддерживает полный рабочий процесс ML: от управления данными и отслеживания экспериментов до реестра моделей, автоматизированных пайплайнов и распределённого выполнения задач на GPU-кластерах.

Свойство
Значение

Категория

MLOps / Отслеживание экспериментов

Разработчик

Allegro AI

Лицензия

Apache 2.0

Звёзды

5.5K+

Docker Hub

allegroai/clearml

Порты

22 (SSH), 8008 (API Server), 8081 (Web UI)


Архитектура

ClearML состоит из четырёх основных компонентов:

Компонент
Порт
Описание

ClearML Server

Координатор бэкенда

Web UI

8081

Панель управления в браузере

API Server

8008

REST API для SDK и агентов

File Server

8081

Хранилище артефактов и моделей

ClearML Agent

Воркeр, который выполняет ML-задачи


Ключевые функции

  • Отслеживание экспериментов без изменений кода — добавьте 2 строки кода, чтобы автоматически захватывать всё

  • Автоматическое логирование — метрики, параметры, модели, вывод консоли, графики, изображения

  • Интеграция с Git — автоматический захват git-коммита, diff и незакоммиченных изменений

  • Управление данными — версионированные датасеты с отслеживанием происхождения

  • Реестр моделей — хранение, версионирование и развёртывание ML-моделей

  • Оркестрация пайплайнов — создание и запуск многошаговых ML-пайплайнов

  • Удалённое выполнение — ставьте эксперименты в очередь и запускайте на удалённых GPU-воркерах (ClearML Agent)

  • Оптимизация гиперпараметров — автоматизированное HPO с обучением на основе популяции

  • Мониторинг ресурсов — мониторинг GPU/CPU/RAM для каждого эксперимента

  • Самостоятельный хостинг или облако — запускайте собственный сервер или используйте хостинговую платформу ClearML


Настройка Clore.ai

Вариант 1 — Полный собственный сервер

Запустите ClearML сервер на Clore.ai для полного контроля.

Шаг 1 — Выберите сервер

Сценарий использования
Рекомендуемо
VRAM
RAM

Только сервер (без обучения)

CPU-инстанс

8 ГБ+

Сервер + обучение

RTX 3080

10 ГБ

16 ГБ

Полный MLOps кластер

Несколько GPU

32 ГБ+

Шаг 2 — Арендуйте сервер на Clore.ai

  1. Перейдите на clore.aiarrow-up-rightМаркетплейс

  2. Для компонента: CPU-инстансы подходят компонента: CPU-инстансы подходят

  3. Для воркеров для обучения: GPU-инстансы (RTX 3090, 4090, A100)

  4. Откройте порты: 22, 8008, 8081

  5. Убедитесь, что ≥ 50 ГБ диска для артефактов экспериментов

Шаг 3 — Развертывание с Docker Compose

Создайте docker-compose.yml:

Запустите стек:

circle-exclamation

Вариант 2 — Использовать хостинг ClearML (бесплатно)

Для отслеживания экспериментов без запуска сервера используйте бесплатный хостинговый план:


Доступ к интерфейсу

Веб-панель

Учётные данные по умолчанию: создайте аккаунт при первом входе.

API Server

Через SSH


Интеграция SDK

Установка

Начальная конфигурация

Введите URL вашего сервера (http://<server-ip>:8008) и API-учётные данные с панели управления.

Или настройте программно:


Отслеживание экспериментов

Минимальная интеграция (2 строки)

Ручное логирование метрик

Отслеживание гиперпараметров


Управление данными


Реестр моделей


Оркестрация пайплайнов


ClearML Agent (Воркeр)

Запустите ClearML Agent на GPU-сервере для выполнения поставленных в очередь экспериментов:

На Clore.ai разверните несколько GPU-нод в качестве агентов ClearML для создания распределённого вычислительного кластера.


Оптимизация гиперпараметров


Мониторинг и оповещения


Устранение неполадок

circle-exclamation
circle-exclamation
circle-info

Эксперименты не отображаются в UI — Проверьте, что CLEARML_API_HOST в вашей конфигурации SDK указывает на http://<server-ip>:8008, а не на localhost.

circle-info

Недостаточно места на диске — ClearML хранит все артефакты локально. Настройте S3/GCS хранилище или увеличьте объём диска в Clore.ai.

Проблема
Исправление

Подключение к MongoDB отклонено

Проверьте контейнер mongo: docker logs clearml_mongo_1

Задача застряла в очереди

Убедитесь, что ClearML Agent запущен и подключён к очереди

Медленный UI

Elasticsearchу требуется время для индексирования — подождите 2–3 минуты после запуска

API 401 Unauthorized

Перегенерируйте API-учётные данные в веб-панели ClearML


Сценарии использования для исследователей на GPU

  • Отслеживать запуски обучения — больше никогда не теряйте гиперпараметры или результаты

  • Сравнивать эксперименты — сравнение метрик бок о бок в UI

  • Воспроизводить результаты — ClearML автоматически сохраняет git-коммит и diff кода

  • Делиться результатами — коллеги видят все эксперименты на общей панели

  • Удалённые GPU-задания — ставьте задачи на обучение с ноутбука и запускайте на GPU-нодах Clore.ai

  • Автоматизированный HPO — запуск поиска гиперпараметров параллельно на нескольких GPU-нодах


Сопутствующие инструменты

  • MLflow — альтернатива для отслеживания экспериментов

  • Weights & Biasesarrow-up-right — хостинговое отслеживание ML-экспериментов

  • Rayarrow-up-right — распределённое обучение ML и HPO


ClearML на Clore.ai объединяет отслеживание экспериментов с управлением GPU-вычислениями — предоставляя вашей ML-команде полные возможности MLOps без зависимости от облачного провайдера.


Рекомендации по GPU для Clore.ai

Сценарий использования
Рекомендуемый GPU
Оцениваемая стоимость на Clore.ai

Разработка/Тестирование

RTX 3090 (24GB)

~$0.12/гпу/час

Продакшн обучение

RTX 4090 (24GB)

~$0.70/гпу/час

Крупномасштабные эксперименты

A100 80GB

~$1.20/гпу/час

💡 Все примеры в этом руководстве можно развернуть на Clore.aiarrow-up-right GPU-серверах. Просматривайте доступные GPU и арендуйте поминутно — без обязательств, с полным доступом root.

Последнее обновление

Это было полезно?