ClearML
ClearML (前称 Trains)是一个开源的 MLOps 平台,用于实验跟踪、数据版本管理、模型管理、流水线编排和计算资源管理 —— 所有功能整合在一个统一套件中。
概览
ClearML 是由 Allegro AI 提供的全面机器学习生命周期管理平台。它通过最少的代码更改自动捕获实验参数、指标、工件和代码。ClearML 支持完整的机器学习工作流:从数据管理与实验跟踪到模型注册、自动化流水线以及在 GPU 集群上的分布式任务执行。
类别
MLOps / 实验跟踪
开发者
Allegro AI
许可证
Apache 2.0
GitHub
Star 数
5.5K+
Docker Hub
allegroai/clearml
端口
22(SSH)、8008(API 服务器)、8081(Web UI)
架构
ClearML 由四个主要组件组成:
ClearML 服务器
—
后端协调器
Web UI
8081
基于浏览器的仪表板
API 服务器
8008
用于 SDK 和代理的 REST API
文件服务器
8081
工件和模型存储
ClearML Agent
—
执行机器学习任务的工作者
主要功能
零代码实验跟踪 — 添加 2 行代码即可自动捕获所有内容
自动记录 — 指标、参数、模型、控制台输出、图表、图像
Git 集成 — 自动捕获 git 提交、diff 和未提交的更改
数据管理 — 带血统追踪的版本化数据集
模型注册表 — 存储、版本化并部署机器学习模型
流水线编排 — 构建并运行多步骤机器学习流水线
远程执行 — 将实验排入队列并在远程 GPU 工作节点上运行(ClearML Agent)
超参数优化 — 基于种群训练的自动化 HPO
资源监控 — 按实验监控 GPU/CPU/RAM
自托管或云端 — 运行您自己的服务器或使用 ClearML 的托管平台
Clore.ai 设置
选项 1 — 完整自托管服务器
在 Clore.ai 上运行 ClearML 服务器以获得完全控制权。
步骤 1 — 选择服务器
仅服务器(不训练)
CPU 实例
—
8 GB+
服务器 + 训练
RTX 3080
10 GB
16 GB
完整 MLOps 集群
多 GPU
—
32 GB+
步骤 2 — 在 Clore.ai 上租用服务器
前往 clore.ai → 市场(Marketplace)
对于 服务器 组件:CPU 实例即可满足需求
对于 训练工作节点:GPU 实例(RTX 3090、4090、A100)
打开端口: 22, 8008, 8081
确保 ≥ 50 GB 磁盘空间 用于实验工件
步骤 3 — 使用 Docker Compose 部署
创建 docker-compose.yml:
启动堆栈:
ClearML 服务器的完整堆栈(MongoDB + Elasticsearch + Redis + API 服务器 + WebUI)大约需要 ~4 GB RAM。请确保您的 Clore.ai 实例有足够内存。
选项 2 — 使用 ClearML 托管(免费)
若无需运行服务器即可进行实验跟踪,可使用免费的托管计划:
访问界面
Web 仪表板
默认凭据:首次登录时创建您的账户。
API 服务器
通过 SSH 访问
SDK 集成
安装
初始配置
输入您的服务器 URL(http://<server-ip>:8008)以及来自仪表板的 API 凭证。
或以编程方式配置:
跟踪实验
最小集成(2 行)
手动指标记录
超参数跟踪
数据管理
模型注册表
流水线编排
ClearML Agent(工作者)
在 GPU 服务器上运行 ClearML Agent 来执行已排队的实验:
在 Clore.ai 上,启动多个 GPU 节点作为 ClearML agent 以创建分布式计算集群。
超参数优化
监控与告警
故障排除
Elasticsearch 启动失败 — 设置 vm.max_map_count=262144 在主机上: sysctl -w vm.max_map_count=262144。添加到 /etc/sysctl.conf 以实现持久化。
无法连接到服务器 — 在 Clore.ai 端口设置中验证 8008 和 8081 端口已打开。检查 docker ps 以确保所有容器正在运行。
实验未出现在 UI 中 — 检查 CLEARML_API_HOST 在您的 SDK 配置中是否指向 http://<server-ip>:8008,而非 localhost。
磁盘空间不足 — ClearML 将所有工件存储在本地。配置 S3/GCS 存储或在 Clore.ai 中增加磁盘配额。
MongoDB 连接被拒绝
检查 mongo 容器: docker logs clearml_mongo_1
任务卡在队列中
确保 ClearML Agent 正在运行并连接到队列
UI 响应慢
Elasticsearch 需要时间建立索引 —— 启动后等待 2–3 分钟
API 401 未授权
在 ClearML Web 仪表板中重新生成 API 凭证
GPU 研究人员的使用场景
跟踪训练运行 — 再也不会丢失超参数或结果
比较实验 — 在 UI 中并排比较指标
复现结果 — ClearML 自动捕获 git 提交与代码差异
共享结果 — 协作者在共享仪表板中可查看所有实验
远程 GPU 作业 — 从笔记本将训练作业入队,在 Clore.ai GPU 节点上运行
自动化 HPO — 在多个 GPU 节点上并行运行超参数搜索
相关工具
MLflow — 实验跟踪的替代方案
Weights & Biases — 托管的机器学习实验跟踪
Ray — 分布式机器学习训练与 HPO
在 Clore.ai 上使用 ClearML 将实验跟踪与 GPU 计算管理结合 —— 为您的机器学习团队提供完整的 MLOps 能力,且不受云厂商锁定。
Clore.ai GPU 推荐
开发/测试
RTX 3090(24GB)
~$0.12/每 GPU/小时
生产训练
RTX 4090(24GB)
~$0.70/每 GPU/小时
大规模实验
A100 80GB
~$1.20/每 GPU/小时
💡 本指南中的所有示例都可以部署在 Clore.ai GPU 服务器上。浏览可用的 GPU 并按小时租用 — 无需承诺,完全 root 访问。
最后更新于
这有帮助吗?