Kandinsky

在 Clore.ai 上使用 Kandinsky 的多语言模型生成图像

利用强大的多语言文本理解生成图像。

circle-check

什么是Kandinsky?

Kandinsky是由Sber AI开发的图像生成模型:

  • 强大的多语言文本理解

  • 高质量图像生成

  • 图像混合与插值

  • 支持修补(inpainting)和扩展(outpainting)

  • 开源权重

资源

模型版本

版本
分辨率
质量
性能

Kandinsky 2.1

768x768

良好

快速

Kandinsky 2.2

RTX 4090

更好

中等

Kandinsky 3

RTX 4090

最佳

较慢

硬件要求

A100
显存
推荐 GPU

Kandinsky 2.2

8GB

RTX 3070

Kandinsky 3

12GB

速度

Kandinsky 3(高分辨率)

16GB

512x512

快速部署

Docker 镜像:

端口:

命令:

访问您的服务

部署后,在以下位置查找您的 http_pub URL: 我的订单:

  1. 前往 我的订单 页面

  2. 单击您的订单

  3. 查找 http_pub URL(例如, abc123.clorecloud.net)

使用 https://YOUR_HTTP_PUB_URL 而不是 localhost 在下面的示例中。

安装

基本用法

Kandinsky 3

Kandinsky 2.2

多语言提示词

Kandinsky支持多种语言:

图像混合

图像修补

图像到图像(Image-to-Image)

批量生成

Gradio 界面

内存优化

background = Image.open("studio_bg.jpg")

A100
分辨率
GPU
时间

Kandinsky 3

RTX 4090

速度

15 秒

Kandinsky 3

RTX 4090

512x512

10s

Kandinsky 2.2

768x768

速度

8s

Kandinsky 2.2

768x768

512x512

5s

# 使用固定种子以获得一致结果

内存不足

与背景合成 生成时CUDA显存不足(OOM)

光照未改变

  • 启用CPU卸载

  • 降低分辨率

  • 使用Kandinsky 2.2替代3

  • 启用注意力切片(attention slicing)

文本渲染不佳

与背景合成 图像中的文字看起来不正确

光照未改变

  • Kandinsky在文本渲染方面表现不佳(与大多数扩散模型类似)

  • 在后期处理时添加文字

  • 使用避免文字的提示词

颜色看起来不对

与背景合成 图像颜色被冲淡或过度饱和

光照未改变

  • 调整guidance scale(尝试3-6范围)

  • 在提示中指定颜色偏好

  • 通过色彩校正进行后期处理

生成速度慢

与背景合成 生成耗时过长

光照未改变

  • 减少推理步数(30步通常足够)

  • 使用fp16精度

  • 使用Kandinsky 2.2以获得更快的结果

  • 为预览降低分辨率

与其他模型的比较

特性
Kandinsky 3
SDXL
FLUX

多语言

优秀

有限

有限

图像质量

非常高

最高

性能

中等

中等

显存

12GB

12GB

24GB

图像修补

有限

下载所有所需的检查点

检查文件完整性

GPU
验证 CUDA 兼容性
费用估算
CLORE.AI 市场的典型费率(截至 2024 年):

按小时费率

~$0.03

~$0.70

~$0.12

速度

~$0.06

~$1.50

~$0.25

512x512

~$0.10

~$2.30

~$0.40

按日费率

~$0.17

~$4.00

~$0.70

4 小时会话

~$0.25

~$6.00

~$1.00

价格因提供者而异。查看 CLORE.AI 市场arrow-up-right A100 40GB

使用以下方式支付

  • FLUX Generation - 最高质量图像

  • Stable Diffusion - 最受欢迎的选项

  • PixArt - 快速生成

  • ComfyUI - 高级工作流

最后更新于

这有帮助吗?