Kohya 训练

在 Clore.ai 上使用 Kohya 为 Stable Diffusion 训练 LoRA 与 DreamBooth

使用 Kohya 的训练器为 Stable Diffusion 训练 LoRA、Dreambooth 和完整微调。

circle-check

在 CLORE.AI 上租用

  1. 按 GPU 类型、显存和价格筛选

  2. 选择 按需 (固定费率)或 竞价 (出价价格)

  3. 配置您的订单:

    • 选择 Docker 镜像

    • 设置端口(用于 SSH 的 TCP,Web 界面的 HTTP)

    • 如有需要,添加环境变量

    • 输入启动命令

  4. 选择支付方式: CLORE, BTC,或 USDT/USDC

  5. 创建订单并等待部署

访问您的服务器

  • 在以下位置查找连接详情: 我的订单

  • Web 界面:使用 HTTP 端口的 URL

  • SSH: ssh -p <port> root@<proxy-address>

什么是 Kohya?

Kohya_ss 是一个用于训练的工具包,适用于:

  • LoRA - 轻量级适配器(最受欢迎)

  • Dreambooth - 主题/风格训练

  • 完整微调 - 完整模型训练

  • LyCORIS - 高级 LoRA 变体

要求

训练类型
最小显存
推荐

LoRA SD 1.5

6GB

按小时费率

LoRA SDXL

12GB

速度

Dreambooth SD 1.5

12GB

速度

Dreambooth SDXL

24GB

512x512

快速部署

Docker 镜像:

端口:

命令:

访问您的服务

部署后,在以下位置查找您的 http_pub URL: 我的订单:

  1. 前往 我的订单 页面

  2. 单击您的订单

  3. 查找 http_pub URL(例如, abc123.clorecloud.net)

使用 https://YOUR_HTTP_PUB_URL 而不是 localhost 在下面的示例中。

使用 Web UI

  1. 访问于 http://<proxy>:<port>

  2. 选择训练类型(LoRA、Dreambooth 等)

  3. 配置设置

  4. 开始训练

数据集准备

文件夹结构

图片要求

  • 分辨率: 512x512(SD 1.5)或 1024x1024(SDXL)

  • 格式: PNG 或 JPG

  • 数量: LoRA 使用 10-50 张图片

  • 质量: 清晰、光线良好、角度多样

标注文件

创建 .txt 与图片同名的文件:

myimage.txt:

自动标注

使用 BLIP 自动生成标注:

LoRA 训练(SD 1.5)

配置

在 Kohya UI 中:

设置
数值

A100

runwayml/stable-diffusion-v1-5

网络秩(Network Rank)

32-128

网络 Alpha(Network Alpha)

16-64

学习率

1e-4

批量大小

1-4

轮数(Epochs)

10-20

优化器

AdamW8bit

命令行训练

LoRA 训练(SDXL)

Dreambooth 训练

主题训练

风格训练

训练提示

最佳设置

参数
人/角色
风格
物体

网络秩(Network Rank)

64-128

32-64

32

网络 Alpha(Network Alpha)

32-64

16-32

16

学习率

1e-4

5e-5

1e-4

轮数(Epochs)

15-25

10-15

10-15

避免过拟合

  • 使用正则化图片

  • 降低学习率

  • 减少训练轮数

  • 增加网络 alpha

避免欠拟合

  • 更多训练图片

  • 提高学习率

  • 增加训练轮数

  • 降低网络 alpha

监控训练

TensorBoard

关键指标

  • 损失(loss) - 应先下降然后稳定

  • 学习率(lr) - 学习率调度

  • 轮次(epoch) - 训练进度

测试你的 LoRA

使用 Automatic1111

复制 LoRA 到:

在提示词中使用:

使用 ComfyUI

加载 LoRA 节点并连接到模型。

使用 Diffusers

高级训练

LyCORIS(LoHa、LoKR)

文本反演

保存与导出

下载训练好的模型

转换格式

下载所有所需的检查点

检查文件完整性

GPU
验证 CUDA 兼容性
费用估算
CLORE.AI 市场的典型费率(截至 2024 年):

按小时费率

~$0.03

~$0.70

~$0.12

速度

~$0.06

~$1.50

~$0.25

512x512

~$0.10

~$2.30

~$0.40

按日费率

~$0.17

~$4.00

~$0.70

4 小时会话

~$0.25

~$6.00

~$1.00

RTX 3060 CLORE.AI 市场arrow-up-right A100 40GB

A100 80GB

  • 使用 竞价 价格随提供商和需求而异。请查看

  • 以获取当前费率。 CLORE 节省费用:

  • 市场用于灵活工作负载(通常便宜 30-50%)

FLUX LoRA 训练

为 FLUX.1-dev 和 FLUX.1-schnell 训练 LoRA 适配器 — 最新一代的扩散变换器模型,具有更高质量。

显存要求

A100
最小显存
推荐 GPU

FLUX.1-schnell

16GB

RTX 4080 / 3090

FLUX.1-dev

24GB

512x512

FLUX.1-dev(bf16)

40GB+

按日费率

注意: FLUX 使用 DiT(Diffusion Transformer)架构 — 训练动态与 SD 1.5 / SDXL 有显著差异。

FLUX 安装

安装支持 CUDA 12.4 的 PyTorch:

FLUX LoRA 配置(flux_lora.toml)

FLUX LoRA 训练命令

FLUX 与 SDXL:主要区别

参数
SDXL
FLUX.1

学习率

1e-3 到 1e-4

1e-4 到 5e-5

精度(Precision)

fp16 或 bf16

必须使用 bf16

网络模块(Network Module)

networks.lora

networks.lora_flux

网络维度(Network Dim)

32–128

8–64(较小)

优化器

AdamW8bit

Adafactor

最小显存

12GB

16–24GB

架构

U-Net

DiT(Transformer)

FLUX 学习率指南

提示: FLUX 对学习率比 SDXL 更敏感。起始于 1e-4 并在出现质量问题时降至 5e-5 对于 SDXL, 1e-3 很常见 — 对 FLUX 应避免此值。

测试 FLUX LoRA


# 使用固定种子以获得一致结果

内存溢出(OOM)错误

  • 将批量大小减小为 1

  • 启用梯度检查点

  • 使用 8bit 优化器

  • 降低分辨率

效果不佳

  • 更多/更好的训练图片

  • 调整学习率

  • 检查标注是否与图片匹配

  • 尝试不同的网络秩

训练崩溃

  • 检查 CUDA 版本

  • 更新 xformers

  • 减少批量大小

  • 检查磁盘空间

FLUX 特定问题

  • "不支持 bf16" — 使用 A 系列(Ampere+)或 RTX 30/40 系列 GPU

  • FLUX.1-dev 内存不足(OOM) — 切换到 FLUX.1-schnell(需要 16GB)或启用 cache_text_encoder_outputs

  • 结果模糊 — 增加 network_dim 到 32–64,将学习率降低到 5e-5

  • 出现 NaN 损失 — 禁用 full_bf16,检查你的数据集是否有损坏的图片

最后更新于

这有帮助吗?