Florence-2

使用 Microsoft Florence-2 进行图像字幕、检测与分割

微软用于生成描述、检测、分割等功能的强大视觉模型。

circle-check
circle-info

本指南中的所有示例都可以在通过以下方式租用的 GPU 服务器上运行: CLORE.AI 市场arrow-up-right 市场。

在 CLORE.AI 上租用

  1. 按 GPU 类型、显存和价格筛选

  2. 选择 按需 (固定费率)或 竞价 (出价价格)

  3. 配置您的订单:

    • 选择 Docker 镜像

    • 设置端口(用于 SSH 的 TCP,Web 界面的 HTTP)

    • 如有需要,添加环境变量

    • 输入启动命令

  4. 选择支付方式: CLORE, BTC,或 USDT/USDC

  5. 创建订单并等待部署

访问您的服务器

  • 在以下位置查找连接详情: 我的订单

  • Web 界面:使用 HTTP 端口的 URL

  • SSH: ssh -p <port> root@<proxy-address>

什么是 Florence-2?

Microsoft 的 Florence-2 是一个视觉基础模型,可处理:

  • 图像字幕(简短和详细)

  • 目标检测与定位

  • 密集区域描述

  • 指代表达理解

  • OCR 与文本识别

  • 视觉问答

资源

推荐硬件

组件
最低
推荐
最佳

GPU

RTX 3060 12GB

RTX 4080 16GB

RTX 4090 24GB

显存

8GB

12GB

16GB

CPU

4 核

8 核

16 核

内存

16GB

32GB

64GB

存储

30GB SSD

50GB NVMe

100GB NVMe

网络

100 Mbps

500 Mbps

1 Gbps

在 CLORE.AI 上快速部署

Docker 镜像:

端口:

命令:

访问您的服务

部署后,在以下位置查找您的 http_pub URL: 我的订单:

  1. 前往 我的订单 页面

  2. 单击您的订单

  3. 查找 http_pub URL(例如, abc123.clorecloud.net)

使用 https://YOUR_HTTP_PUB_URL 而不是 localhost 在下面的示例中。

安装

您可以创建的内容

内容分析

  • 自动生成图像描述

  • 从图像中提取文本(OCR)

  • 对视觉内容进行大规模分析

数据标注

  • 自动为数据集添加描述标签

  • 生成对象的边界框

  • 创建密集标注

无障碍支持

  • 为图像生成替代文本(alt-text)

  • 为视障人士描述图像

  • 创建音频描述

搜索与发现

  • 按内容为图像建立索引

  • 构建视觉搜索系统

  • 内容审核

文档处理

  • 从文档中提取文本

  • 理解图表与示意图

  • 处理扫描材料

基本用法

图像描述(Captioning)

目标检测

OCR(文本识别)

密集区域描述(Dense Region Captioning)

指代表达理解(Referring Expression Comprehension)

根据文本描述查找对象:

所有可用任务

"专业影棚柔光箱"

Gradio 界面

background = Image.open("studio_bg.jpg")

任务
分辨率
GPU
性能

描述(Caption)

768x768

速度

200ms

描述(Caption)

768x768

512x512

120ms

目标检测

768x768

512x512

150ms

OCR

768x768

512x512

180ms

密集描述(Dense Caption)

768x768

2s

100ms

1024x1024

A100
参数量
显存
性能

Florence-2-base

232M

4GB

快速

Florence-2-large

771M

8GB

中等

Florence-2-base-ft

232M

4GB

快速

Florence-2-large-ft

771M

8GB

中等

IC-Light-FBC

内存不足

与背景合成 CUDA OOM 错误

光照未改变

推理缓慢

与背景合成 处理耗时过长

光照未改变

  • 使用 Florence-2-base 以获得更快的推理速度

  • 安装 flash-attention 以加速

  • 将多张图像批量处理

  • 在生产环境中使用 A100 GPU

OCR 结果差

与背景合成 文本识别不准确

光照未改变

  • 确保图像分辨率较高(至少 768px)

  • 使用 <OCR_WITH_REGION> 以获得更好的定位

  • 预处理:增强对比度,纠正倾斜

  • 在 OCR 之前裁剪到文本区域

检测缺失对象

与背景合成 对象未被检测到

光照未改变

  • 使用 <DENSE_REGION_CAPTION> 以获取更多区域

  • 尝试 <OPEN_VOCABULARY_DETECTION> 使用特定标签

  • 与 GroundingDINO 结合以检测特定对象

# 使用固定种子以获得一致结果

任务无法正常工作

  • 检查任务名称语法是否精确

  • 某些任务需要特定的输入格式

  • 确认模型版本与任务匹配

输出格式不符合预期

  • 不同任务返回不同格式

  • 根据任务类型解析输出

  • 查看任务输出的文档

CUDA 内存问题

  • Florence-2-large 需要约 8GB 显存

  • 使用 Florence-2-base 以减少内存占用

  • 启用梯度检查点

处理缓慢

  • 尽量使用批量推理

  • 启用 FP16 模式

  • 考虑使用 TensorRT 优化

下载所有所需的检查点

检查文件完整性

GPU
验证 CUDA 兼容性
费用估算
CLORE.AI 市场的典型费率(截至 2024 年):

按小时费率

~$0.03

~$0.70

~$0.12

速度

~$0.06

~$1.50

~$0.25

512x512

~$0.10

~$2.30

~$0.40

按日费率

~$0.17

~$4.00

~$0.70

4 小时会话

~$0.25

~$6.00

~$1.00

RTX 3060 CLORE.AI 市场arrow-up-right A100 40GB

A100 80GB

  • 使用 竞价 价格随提供商和需求而异。请查看

  • 以获取当前费率。 CLORE 节省费用:

  • 市场用于灵活工作负载(通常便宜 30-50%)

使用以下方式支付

最后更新于

这有帮助吗?