GroundingDINO

使用 GroundingDINO 根据文本描述检测任意对象

使用 GroundingDINO 通过文本描述检测任何对象。

circle-check
circle-info

本指南中的所有示例都可以在通过以下方式租用的 GPU 服务器上运行: CLORE.AI 市场arrow-up-right 市场。

在 CLORE.AI 上租用

  1. 按 GPU 类型、显存和价格筛选

  2. 选择 按需 (固定费率)或 竞价 (出价价格)

  3. 配置您的订单:

    • 选择 Docker 镜像

    • 设置端口(用于 SSH 的 TCP,Web 界面的 HTTP)

    • 如有需要,添加环境变量

    • 输入启动命令

  4. 选择支付方式: CLORE, BTC,或 USDT/USDC

  5. 创建订单并等待部署

访问您的服务器

  • 在以下位置查找连接详情: 我的订单

  • Web 界面:使用 HTTP 端口的 URL

  • SSH: ssh -p <port> root@<proxy-address>

什么是 GroundingDINO?

IDEA-Research 的 GroundingDINO 提供:

  • 使用文本提示的零样本目标检测

  • 无需训练即可检测任何对象

  • 高精度边界框定位

  • 与 SAM 结合实现自动分割

资源

推荐硬件

组件
最低
推荐
最佳

GPU

RTX 3060 12GB

RTX 4080 16GB

RTX 4090 24GB

显存

6GB

12GB

16GB

CPU

4 核

8 核

16 核

内存

16GB

32GB

64GB

存储

20GB SSD

50GB NVMe

100GB NVMe

网络

100 Mbps

500 Mbps

1 Gbps

在 CLORE.AI 上快速部署

Docker 镜像:

端口:

命令:

访问您的服务

部署后,在以下位置查找您的 http_pub URL: 我的订单:

  1. 前往 我的订单 页面

  2. 单击您的订单

  3. 查找 http_pub URL(例如, abc123.clorecloud.net)

使用 https://YOUR_HTTP_PUB_URL 而不是 localhost 在下面的示例中。

安装

您可以创建的内容

自动标注

  • 为机器学习训练自动注释数据集

  • 根据描述生成边界框

  • 加速数据标注流程

视觉搜索

  • 在图像数据库中查找特定对象

  • 内容审核系统

  • 零售中的产品识别

机器人与自动化

  • 用于机械臂的对象定位

  • 库存管理系统

  • 质量控制检测

创意应用

  • 从照片中自动裁剪主体

  • 使用 SAM 生成对象掩码

  • 基于内容的图像编辑

分析

  • 统计图像中的对象数量

  • 从照片跟踪库存

  • 野生动物监测

基本用法

GroundingDINO + SAM(Grounded-SAM)

将检测与分割结合:

"专业影棚柔光箱"

自定义检测管道

Gradio 界面

background = Image.open("studio_bg.jpg")

任务
分辨率
GPU
性能

单张图片

800x600

速度

120ms

单张图片

800x600

512x512

80 毫秒

单张图片

1920x1080

512x512

150ms

批处理(10 张图片)

800x600

512x512

600 毫秒

IC-Light-FBC

检测准确率低

与背景合成 对象未被检测到

光照未改变

  • 降低 box_threshold 到 0.2-0.3

  • 降低 text_threshold 到 0.15-0.2

  • 使用更具体的对象描述

  • 使用 " . " 分隔对象而不是逗号

内存不足

与背景合成 大图像导致 CUDA OOM

光照未改变

推理缓慢

与背景合成 检测耗时过长

光照未改变

  • 使用更小的输入图像

  • 对多张图像进行批处理

  • 使用 FP16 推理

  • 租用更快的 GPU(RTX 4090、A100)

误报

与背景合成 检测到错误的对象

光照未改变

  • 增加 box_threshold 到 0.4-0.5

  • 在提示中更具体

  • 使用负面提示(在检测后过滤结果)

# 使用固定种子以获得一致结果

对象未被检测到

  • 使用更具体的文本描述

  • 尝试不同的措辞

  • 降低置信度阈值

边界框错误

  • 在文本提示中更具体

  • 使用 "." 分隔多个对象

  • 检查图像质量

triangle-exclamation
  • 降低图像分辨率

  • 一次处理一张图像

  • 使用更小的模型变体

推理缓慢

  • 使用 TensorRT 提速

  • 批处理相似尺寸的图像

  • 启用 FP16 推理

下载所有所需的检查点

检查文件完整性

GPU
验证 CUDA 兼容性
费用估算
CLORE.AI 市场的典型费率(截至 2024 年):

按小时费率

~$0.03

~$0.70

~$0.12

速度

~$0.06

~$1.50

~$0.25

512x512

~$0.10

~$2.30

~$0.40

按日费率

~$0.17

~$4.00

~$0.70

4 小时会话

~$0.25

~$6.00

~$1.00

RTX 3060 CLORE.AI 市场arrow-up-right A100 40GB

A100 80GB

  • 使用 竞价 价格随提供商和需求而异。请查看

  • 以获取当前费率。 CLORE 节省费用:

  • 市场用于灵活工作负载(通常便宜 30-50%)

使用以下方式支付

  • SAM2 - 对检测到的对象进行分割

  • Florence-2 - 更多视觉任务

  • YOLO - 对已知类别更快的检测

最后更新于

这有帮助吗?