Jupyter 机器学习训练

在 Clore.ai 上设置带 GPU 支持的 JupyterLab 以进行机器学习训练

使用 GPU 支持设置 JupyterLab 以进行机器学习实验和模型训练。

circle-check

服务器要求

参数
最低
推荐

内存

16GB

32GB 以上

显存

8GB

16GB+

网络

200Mbps

500Mbps+

启动时间

2-3 分钟

-

circle-info

JupyterLab 本身很轻量。根据您的训练工作负载需求选择 GPU 和内存。

快速部署

Docker 镜像:

pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime

端口:

22/tcp
8888/http
6006/http

环境:

JUPYTER_TOKEN=your_secure_token_here

命令:

访问您的服务

部署后,在以下位置查找您的 http_pub URL: 我的订单:

  1. 前往 我的订单 页面

  2. 单击您的订单

  3. 查找 http_pub URL(例如, abc123.clorecloud.net)

使用 https://YOUR_HTTP_PUB_URL 而不是 localhost 在下面的示例中。

验证是否正常运行

circle-exclamation

在 CLORE.AI 上租用

  1. 按 GPU 类型、显存和价格筛选

  2. 选择 按需 (固定费率)或 竞价 (出价价格)

  3. 配置您的订单:

    • 选择 Docker 镜像

    • 设置端口(用于 SSH 的 TCP,Web 界面的 HTTP)

    • 如有需要,添加环境变量

    • 输入启动命令

  4. 选择支付方式: CLORE, BTC,或 USDT/USDC

  5. 创建订单并等待部署

访问您的服务器

  • 在以下位置查找连接详情: 我的订单

  • Web 界面:使用 HTTP 端口的 URL

  • SSH: ssh -p <port> root@<proxy-address>

访问 Jupyter

  1. 等待部署完成

  2. 找到端口 8888 的映射

  3. 打开: http://<proxy>:<port>?token=your_secure_token_here

预配置的 ML 镜像

用于完整的 ML 环境:

镜像:

或构建自定义镜像:

常用库

在 Jupyter 中安装

创建 requirements.txt

训练示例

PyTorch 图像分类

HuggingFace 文本分类

使用 LoRA 的大模型微调

TensorBoard 集成

启动 TensorBoard

或通过终端:

记录训练指标

Weights & Biases 集成

数据管理

下载数据集

挂载云存储

保存工作进度

保存到外部存储

在结束会话之前

多 GPU 训练

性能优化建议

内存优化

数据加载

# 使用固定种子以获得一致结果

下载所有所需的检查点

检查文件完整性

GPU
验证 CUDA 兼容性
费用估算
CLORE.AI 市场的典型费率(截至 2024 年):

按小时费率

~$0.03

~$0.70

~$0.12

速度

~$0.06

~$1.50

~$0.25

512x512

~$0.10

~$2.30

~$0.40

按日费率

~$0.17

~$4.00

~$0.70

4 小时会话

~$0.25

~$6.00

~$1.00

RTX 3060 CLORE.AI 市场arrow-up-right A100 40GB

A100 80GB

  • 使用 竞价 价格随提供商和需求而异。请查看

  • 以获取当前费率。 CLORE 节省费用:

  • 市场用于灵活工作负载(通常便宜 30-50%)

最后更新于

这有帮助吗?