DeepSpeed 训练

在 Clore.ai GPU 上使用 DeepSpeed 高效训练大型模型

使用 Microsoft DeepSpeed 高效训练大型模型。

circle-check

在 CLORE.AI 上租用

  1. 按 GPU 类型、显存和价格筛选

  2. 选择 按需 (固定费率)或 竞价 (出价价格)

  3. 配置您的订单:

    • 选择 Docker 镜像

    • 设置端口(用于 SSH 的 TCP,Web 界面的 HTTP)

    • 如有需要,添加环境变量

    • 输入启动命令

  4. 选择支付方式: CLORE, BTC,或 USDT/USDC

  5. 创建订单并等待部署

访问您的服务器

  • 在以下位置查找连接详情: 我的订单

  • Web 界面:使用 HTTP 端口的 URL

  • SSH: ssh -p <port> root@<proxy-address>

什么是 DeepSpeed?

DeepSpeed 支持:

  • 训练无法放入 GPU 内存的模型

  • 多 GPU 与多节点训练

  • ZeRO 优化(内存效率)

  • 混合精度训练

ZeRO 阶段

阶段
节省内存
性能

ZeRO-1

优化器状态分区

快速

ZeRO-2

+ 梯度分区

平衡

ZeRO-3

+ 参数分区

最大节省

ZeRO-Infinity

CPU/NVMe 卸载

最大的模型

快速部署

Docker 镜像:

端口:

命令:

安装

基础训练

DeepSpeed 配置

ds_config.json:

训练脚本

ZeRO Stage 2 配置

ZeRO Stage 3 配置

针对大型模型:

与 Hugging Face Transformers 一起使用

Trainer 集成

多 GPU 训练

启动命令

使用 torchrun

多节点训练

主机文件

hostfile:

启动

SSH 设置

节省内存的配置

24GB GPU 上的 7B 模型

24GB GPU 上的 13B 模型

梯度检查点

通过重新计算激活来节省内存:

保存与加载检查点

保存

加载

保存为 HuggingFace 格式

监控

TensorBoard

Weights & Biases

常见问题

内存不足

训练缓慢

  • 减少 CPU 卸载

  • 增大批量大小

  • 使用 ZeRO Stage 2 而不是 3

NCCL 错误

性能提示

提示
效果

使用 bf16 替代 fp16

更好的稳定性

启用梯度检查点

更少内存占用

调整批量大小

更好的吞吐量

使用 NVMe 卸载

更大的模型

性能比较

A100
GPU 数量
ZeRO 阶段
训练速度

7B

1x A100

ZeRO-3

~1000 tokens/s

7B

4x A100

ZeRO-2

~4000 tokens/s

13B

4x A100

ZeRO-3

~2000 tokens/s

70B

8x A100

ZeRO-3

~800 tokens/s

# 使用固定种子以获得一致结果

下载所有所需的检查点

检查文件完整性

GPU
验证 CUDA 兼容性
费用估算
CLORE.AI 市场的典型费率(截至 2024 年):

按小时费率

~$0.03

~$0.70

~$0.12

速度

~$0.06

~$1.50

~$0.25

512x512

~$0.10

~$2.30

~$0.40

按日费率

~$0.17

~$4.00

~$0.70

4 小时会话

~$0.25

~$6.00

~$1.00

RTX 3060 CLORE.AI 市场arrow-up-right A100 40GB

A100 80GB

  • 使用 竞价 价格随提供商和需求而异。请查看

  • 以获取当前费率。 CLORE 节省费用:

  • 市场用于灵活工作负载(通常便宜 30-50%)

使用以下方式支付

最后更新于

这有帮助吗?