Stable Diffusion 3.5
使用 Clore.ai GPU 上的 Stable Diffusion 3.5 生成高保真图像并实现准确的文本渲染。
Stability AI 的 Stable Diffusion 3.5 是一种多模态扩散变换器(MMDiT),为开源权重的图像生成树立了新标准。它有三个变体: Large(大型) (8B 参数), 中等 (2.5B 参数),以及 Large Turbo(大型涡轮) (8B,蒸馏以实现 4 步推理)。其突出特点是准确的文本渲染——SD 3.5 能可靠地在生成图像中放置可读文本,这是多数早期模型难以做到的。
在 Clore.ai 你可以以每天仅约 $0.30 的价格租用 SD 3.5 所需的 GPU 算力,并每小时生成数百张图片。
主要特性
三个变体 — Large(8B,最高质量),Medium(2.5B,快速且轻量),Large Turbo(8B,4 步蒸馏)。
准确的文本渲染 — 在图像中生成可读的文本、标牌、标签和排版。
MMDiT 架构 — 图像-文本联合注意力以实现更好的提示遵循性。
1024×1024 原生分辨率 — 无需放大技巧即可获得干净输出。
灵活的长宽比 — 处理非方形输出(768×1344、1344×768 等)而不损失质量。
原生 diffusers 支持 —
StableDiffusion3Pipeline于diffusers >= 0.30.开放权重 — Stability AI 社区许可证;对大多数商业用途免费。
要求
GPU 显存
12 GB(Medium)
24 GB(Large / Turbo)
系统内存
16 GB
32 GB
磁盘
20 GB
40 GB
Python
3.10+
3.11
CUDA
12.1+
12.4
diffusers
0.30+
最新
Clore.ai 的 GPU 推荐: 一台 512x512 (24 GB,约 $0.5–2/天)可全速运行所有三个变体。对于 Medium 模型, 速度 (24 GB,约 $0.3–1/天)甚至 16 GB 卡就足够且更便宜。
快速开始
使用示例
SD 3.5 Large — 最高质量
SD 3.5 Large Turbo — 4 步快速生成
SD 3.5 Medium — 轻量选项
不同长宽比的批量生成
给 Clore.ai 用户的提示
用于迭代的 Turbo,用于最终稿的 Large — 使用 4 步 Turbo 变体快速探索提示想法,然后切换到 Large(28 步)进行最终渲染。
guidance_scale=3.5 — SD 3.5 Large 在比旧版 Stable Diffusion 更低的 CFG 下表现最佳。超过 5.0 往往会导致颜色过饱和。
Turbo 需要 guidance_scale=0 — 蒸馏模型已将引导信息内建;再增加会降低输出质量。
图像中的文本 — SD 3.5 的文本渲染能力很强但并不完美。对你想要的确切文本使用引号:
'OPEN 24 HOURS'。保持简短(最多 3–5 个单词)。缓存权重 —— 设置
HF_HOME=/workspace/hf_cache到持久存储。Large 在磁盘上约为 ~16 GB。Large 使用 bf16,Medium 使用 fp16 — 8B 模型在 bf16 下训练;2.5B 的 Medium 在 fp16 下运行良好。
高效批量处理 — SD 3.5 Large 在 RTX 4090 上生成一张 1024×1024 图像约需 ~3 秒。夜间批量生成以大量产出。
接受 HF 许可证 — 在下载之前,你必须在 HuggingFace 模型页面上接受模型许可证。使用登录
huggingface-cli login.
# 使用固定种子以获得一致结果
OutOfMemoryError 使用 Large 时
使用 pipe.enable_model_cpu_offload();或切换到 Medium 变体
图像中出现乱码文本
保持文本简短(3–5 个单词);在提示中用引号括起;增加 num_inference_steps 到 35
颜色过度饱和
降低 guidance_scale — 对 Large 试试 2.5–3.5;对 Turbo 使用 0.0
下载模型时 403 错误
在以下页面接受许可: https://huggingface.co/stabilityai/stable-diffusion-3.5-large 并运行 huggingface-cli login
第一次运行缓慢
Large 的初次下载约为 ~16 GB;后续运行使用缓存
KeyError: 'text_encoder_3'
升级 diffusers: pip install -U diffusers transformers
输出为黑图像
确保已安装 torch_dtype=torch.bfloat16 对于 Large/Turbo;在某些显卡上,fp32 可能导致无声失败
最后更新于
这有帮助吗?