微调大语言模型

在 Clore.ai GPU 上使用高效技术微调自定义大型语言模型

使用高效微调技术在 CLORE.AI GPU 上训练您自己的自定义大语言模型。

circle-check

在 CLORE.AI 上租用

  1. 按 GPU 类型、显存和价格筛选

  2. 选择 按需(On-Demand) (固定费率)或 竞价(Spot) (出价价格)

  3. 配置您的订单:

    • 选择 Docker 镜像

    • 设置端口(SSH 使用 TCP,Web 界面使用 HTTP)

    • 如需可添加环境变量

    • 输入启动命令

  4. 选择付款方式: CLORE, BTC,或 USDT/USDC

  5. 创建订单并等待部署

访问您的服务器

  • 在以下位置查找连接详情 我的订单

  • Web 界面:使用 HTTP 端口的 URL

  • SSH: ssh -p <port> root@<proxy-address>

什么是 LoRA/QLoRA?

  • LoRA (低秩适配)— 训练小型适配器层而不是整个模型

  • QLoRA — 带量化的 LoRA,可进一步减少显存占用

  • 在单卡 RTX 3090 上训练 7B 模型

  • 在单卡 A100 上训练 70B 模型

要求

模型
方法
最低显存
推荐

7B

QLoRA

12GB

RTX 3090

13B

QLoRA

20GB

RTX 4090

70B

QLoRA

48GB

A100 80GB

7B

完整 LoRA

24GB

RTX 4090

快速部署

Docker 镜像:

端口:

命令:

访问您的服务

部署后,在以下位置查找您的 http_pub URL 我的订单:

  1. 转到 我的订单 页面

  2. 点击您的订单

  3. 查找 http_pub URL(例如, abc123.clorecloud.net)

使用 https://YOUR_HTTP_PUB_URL 替代 localhost 在下面的示例中。

数据集准备

聊天格式(推荐)

指令格式

Alpaca 格式

支持的现代模型(2025)

模型
HF ID
最低显存(QLoRA)

Llama 3.1 / 3.3 8B

meta-llama/Llama-3.1-8B-Instruct

12GB

Qwen 2.5 7B / 14B

Qwen/Qwen2.5-7B-Instruct

12GB / 20GB

DeepSeek-R1-Distill(7B/8B)

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

12GB

Mistral 7B v0.3

mistralai/Mistral-7B-Instruct-v0.3

12GB

Gemma 2 9B

google/gemma-2-9b-it

14GB

Phi-4 14B

microsoft/phi-4

20GB

QLoRA 微调脚本

现代示例,支持 PEFT 0.14+、Flash Attention 2、DoRA,以及 Qwen2.5 / DeepSeek-R1 兼容性:

Flash Attention 2

Flash Attention 2 显著降低显存使用并加速训练。需要安培及以上 GPU(RTX 3090、RTX 4090、A100)。

设置
显存(7B)
速度

标准注意力(fp16)

~22GB

基线

Flash Attention 2(bf16)

~16GB

+30%

Flash Attention 2 + QLoRA

~12GB

+30%

DoRA(权重分解的 LoRA)

DoRA(PEFT >= 0.14)将预训练权重分解为幅度和方向分量。它提高了微调质量,尤其是在较小秩时表现突出。

Qwen2.5 与 DeepSeek-R1-Distill 示例

Qwen2.5 微调

DeepSeek-R1-Distill 微调

DeepSeek-R1-Distill 模型(Qwen-7B、Qwen-14B、Llama-8B、Llama-70B)侧重推理。微调以将其链式思维(chain-of-thought)风格适配到您的领域。

使用 Axolotl(更简单)

Axolotl 使用 YAML 配置简化微调:

Axolotl 配置示例

聊天模型

代码模型

合并 LoRA 权重

训练后,将 LoRA 合并回基础模型:

转换为 GGUF

用于 llama.cpp/Ollama:

监控训练

Weights & Biases

TensorBoard

最佳实践

超参数

参数
7B 模型
13B 模型
70B 模型

batch_size

4

2

1

grad_accum

4

8

16

学习率(lr)

2e-4

1e-4

5e-5

lora_r

64

32

16

训练轮数(epochs)

3

2-3

1-2

数据集规模

  • 最少:1,000 个示例

  • 良好:10,000+ 个示例

  • 质量优于数量

避免过拟合

多卡训练

DeepSpeed 配置:

保存与导出

故障排查

OOM 错误

  • 减少批次大小

  • 增加梯度累积

  • 使用 gradient_checkpointing=True

  • 减少 lora_r

训练损失未下降

  • 检查数据格式

  • 提高学习率

  • 检查数据问题

损失为 NaN

  • 降低学习率

  • 使用 fp32 而不是 fp16

  • 检查是否有损坏的数据

成本估算

典型 CLORE.AI 市场价格(截至 2024 年):

GPU
小时费率
日费率
4 小时会话

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

价格因提供商和需求而异。请查看 CLORE.AI 市场arrow-up-right 以获取当前费率。

📚 另见: 在云 GPU 上微调 LLaMA 3 的逐步指南arrow-up-right

省钱:

  • 使用 竞价(Spot) 适合弹性工作负载的市场(通常便宜 30-50%)

  • 支付方式 CLORE 代币

  • 比较不同提供商的价格

最后更新于

这有帮助吗?