DeepSpeed 训练
在 Clore.ai GPU 上使用 DeepSpeed 高效训练大型模型
在 CLORE.AI 上租用
访问您的服务器
什么是 DeepSpeed?
ZeRO 阶段
阶段
节省内存
性能
快速部署
安装
基础训练
DeepSpeed 配置
训练脚本
ZeRO Stage 2 配置
ZeRO Stage 3 配置
与 Hugging Face Transformers 一起使用
Trainer 集成
多 GPU 训练
启动命令
使用 torchrun
多节点训练
主机文件
启动
SSH 设置
节省内存的配置
24GB GPU 上的 7B 模型
24GB GPU 上的 13B 模型
梯度检查点
保存与加载检查点
保存
加载
保存为 HuggingFace 格式
监控
TensorBoard
Weights & Biases
常见问题
内存不足
训练缓慢
NCCL 错误
性能提示
提示
效果
性能比较
A100
GPU 数量
ZeRO 阶段
训练速度
# 使用固定种子以获得一致结果
下载所有所需的检查点
GPU
验证 CUDA 兼容性
费用估算
CLORE.AI 市场的典型费率(截至 2024 年):
使用以下方式支付
最后更新于
这有帮助吗?