ClearML

circle-info

ClearML (前称 Trains)是一个开源的 MLOps 平台,用于实验跟踪、数据版本管理、模型管理、流水线编排和计算资源管理 —— 所有功能整合在一个统一套件中。

概览

ClearML 是由 Allegro AI 提供的全面机器学习生命周期管理平台。它通过最少的代码更改自动捕获实验参数、指标、工件和代码。ClearML 支持完整的机器学习工作流:从数据管理与实验跟踪到模型注册、自动化流水线以及在 GPU 集群上的分布式任务执行。

属性
数值

类别

MLOps / 实验跟踪

开发者

Allegro AI

许可证

Apache 2.0

Star 数

5.5K+

Docker Hub

allegroai/clearml

端口

22(SSH)、8008(API 服务器)、8081(Web UI)


架构

ClearML 由四个主要组件组成:

组件
端口
说明

ClearML 服务器

后端协调器

Web UI

8081

基于浏览器的仪表板

API 服务器

8008

用于 SDK 和代理的 REST API

文件服务器

8081

工件和模型存储

ClearML Agent

执行机器学习任务的工作者


主要功能

  • 零代码实验跟踪 — 添加 2 行代码即可自动捕获所有内容

  • 自动记录 — 指标、参数、模型、控制台输出、图表、图像

  • Git 集成 — 自动捕获 git 提交、diff 和未提交的更改

  • 数据管理 — 带血统追踪的版本化数据集

  • 模型注册表 — 存储、版本化并部署机器学习模型

  • 流水线编排 — 构建并运行多步骤机器学习流水线

  • 远程执行 — 将实验排入队列并在远程 GPU 工作节点上运行(ClearML Agent)

  • 超参数优化 — 基于种群训练的自动化 HPO

  • 资源监控 — 按实验监控 GPU/CPU/RAM

  • 自托管或云端 — 运行您自己的服务器或使用 ClearML 的托管平台


Clore.ai 设置

选项 1 — 完整自托管服务器

在 Clore.ai 上运行 ClearML 服务器以获得完全控制权。

步骤 1 — 选择服务器

使用场景
推荐
显存(VRAM)
内存(RAM)

仅服务器(不训练)

CPU 实例

8 GB+

服务器 + 训练

RTX 3080

10 GB

16 GB

完整 MLOps 集群

多 GPU

32 GB+

步骤 2 — 在 Clore.ai 上租用服务器

  1. 前往 clore.aiarrow-up-right市场(Marketplace)

  2. 对于 服务器 组件:CPU 实例即可满足需求

  3. 对于 训练工作节点:GPU 实例(RTX 3090、4090、A100)

  4. 打开端口: 22, 8008, 8081

  5. 确保 ≥ 50 GB 磁盘空间 用于实验工件

步骤 3 — 使用 Docker Compose 部署

创建 docker-compose.yml:

启动堆栈:

circle-exclamation

选项 2 — 使用 ClearML 托管(免费)

若无需运行服务器即可进行实验跟踪,可使用免费的托管计划:


访问界面

Web 仪表板

默认凭据:首次登录时创建您的账户。

API 服务器

通过 SSH 访问


SDK 集成

安装

初始配置

输入您的服务器 URL(http://<server-ip>:8008)以及来自仪表板的 API 凭证。

或以编程方式配置:


跟踪实验

最小集成(2 行)

手动指标记录

超参数跟踪


数据管理


模型注册表


流水线编排


ClearML Agent(工作者)

在 GPU 服务器上运行 ClearML Agent 来执行已排队的实验:

在 Clore.ai 上,启动多个 GPU 节点作为 ClearML agent 以创建分布式计算集群。


超参数优化


监控与告警


故障排除

circle-exclamation
circle-exclamation
circle-info

实验未出现在 UI 中 — 检查 CLEARML_API_HOST 在您的 SDK 配置中是否指向 http://<server-ip>:8008,而非 localhost。

circle-info

磁盘空间不足 — ClearML 将所有工件存储在本地。配置 S3/GCS 存储或在 Clore.ai 中增加磁盘配额。

问题
修复

MongoDB 连接被拒绝

检查 mongo 容器: docker logs clearml_mongo_1

任务卡在队列中

确保 ClearML Agent 正在运行并连接到队列

UI 响应慢

Elasticsearch 需要时间建立索引 —— 启动后等待 2–3 分钟

API 401 未授权

在 ClearML Web 仪表板中重新生成 API 凭证


GPU 研究人员的使用场景

  • 跟踪训练运行 — 再也不会丢失超参数或结果

  • 比较实验 — 在 UI 中并排比较指标

  • 复现结果 — ClearML 自动捕获 git 提交与代码差异

  • 共享结果 — 协作者在共享仪表板中可查看所有实验

  • 远程 GPU 作业 — 从笔记本将训练作业入队,在 Clore.ai GPU 节点上运行

  • 自动化 HPO — 在多个 GPU 节点上并行运行超参数搜索


相关工具


在 Clore.ai 上使用 ClearML 将实验跟踪与 GPU 计算管理结合 —— 为您的机器学习团队提供完整的 MLOps 能力,且不受云厂商锁定。


Clore.ai GPU 推荐

使用场景
推荐 GPU
在 Clore.ai 的预计成本

开发/测试

RTX 3090(24GB)

~$0.12/每 GPU/小时

生产训练

RTX 4090(24GB)

~$0.70/每 GPU/小时

大规模实验

A100 80GB

~$1.20/每 GPU/小时

💡 本指南中的所有示例都可以部署在 Clore.aiarrow-up-right GPU 服务器上。浏览可用的 GPU 并按小时租用 — 无需承诺,完全 root 访问。

最后更新于

这有帮助吗?