FLUX.2 Klein

FLUX.2 Klein —— 在 Clore.ai 的 GPU 上实现亚秒级图像生成

FLUX.2 Klein 由 Black Forest Labs 推出,是 FLUX.1 的继任者,在相同图像质量下提供 快 20–60 倍。而 FLUX.1 每张图像需要 10–30 秒,FLUX.2 Klein 在 低于 0.5 秒 在 RTX 4090 上生成。它是一个 32B 的 Diffusion Transformer (DiT) 模型,采用 Apache 2.0 许可证,截至 2026 年 1 月,甚至在 Ollama 中有实验性支持。

主要特性

  • < 0.5 秒 生成:比 FLUX.1 快 20–60×

  • 32B DiT 架构:与 FLUX.1 相同的质量 dev

  • Apache 2.0 许可证:完全商业使用

  • Ollama 支持:通过 Ollama 的实验性图像生成(2026 年 1 月)

  • 兼容 ComfyUI:可作为 FLUX.1 工作流的即插即用替代品

  • LoRA + ControlNet:社区适配器可用

要求

组件
最低
推荐

GPU

RTX 3090 24GB

RTX 4090 24GB

显存

16GB(支持卸载)

24GB

内存

32GB

64GB

磁盘

40GB

60GB

CUDA

12.0+

12.1+

推荐的 Clore.ai GPU:RTX 4090 24GB(约 $0.5–2/天)— 次级别生成

速度比较:FLUX.1 vs FLUX.2 Klein

GPU
FLUX.1 dev(20 步)
FLUX.2 Klein
加速倍数

速度

~25 秒

≈1.2 秒

20×

512x512

≈12 秒

≈0.4 秒

30×

RTX 5090

≈8 秒

≈0.25 秒

32×

H100

~5 秒

≈0.15 秒

33×

使用 diffusers 的快速入门

节省内存模式(16GB GPU)

IC-Light 可作为 ComfyUI 节点使用:

FLUX.2 Klein 可作为现有 FLUX.1 ComfyUI 工作流的即插即用替代品:

  1. 下载 FLUX.2 Klein 检查点到 ComfyUI/models/diffusion_models/

  2. 在你的工作流中,将检查点节点更改为指向 FLUX.2 Klein

  3. 将步数减少到 4(而不是 FLUX.1 的 20–50)

  4. 将指导尺度设置为 3.0–4.0

批量生成

凭借次秒级生成,FLUX.2 Klein 可实现大规模批处理:

支持 LoRA

给 Clore.ai 用户的提示

  • 批处理之王:在 0.4 秒/图像 时,你可以在 RTX 4090 上每小时生成 10,000+ 张图像

  • 仅 4 步:不要使用更多步数 — Klein 针对 4 步进行了优化(更多步数不会提升质量)

  • 与 FLUX.1 相同的 LoRA:大多数 FLUX.1 LoRA 与 Klein 兼容

  • ComfyUI 即插即用:只需替换检查点,将步数改为 4

  • RTX 3090 也可行:1.2 秒/图像 在 $0.3/天 下仍然很不错

# 使用固定种子以获得一致结果

问题
解决方案

24GB 上出现 OOM

使用 enable_model_cpu_offload() + vae.enable_tiling()

图像模糊

确保已安装 num_inference_steps=4,不是更少。检查 guidance_scale 3.0–4.0

首次生成缓慢

正常 — 模型在首次调用时加载(约 30 秒)。之后:次秒级

ComfyUI 检查点错误

确保你有 .safetensors 文件,而不是 diffusers 格式

延伸阅读

最后更新于

这有帮助吗?