GroundingDINO

Обнаруживайте любые объекты по текстовым описаниям с GroundingDINO

Обнаруживайте любые объекты по текстовым описаниям с помощью GroundingDINO.

circle-check
circle-info

Все примеры в этом руководстве можно запустить на GPU-серверах, арендуемых через CLORE.AI Marketplacearrow-up-right маркетплейс.

Аренда на CLORE.AI

  1. Отфильтруйте по типу GPU, объему VRAM и цене

  2. Выберите On-Demand (фиксированная ставка) или Spot (цена по ставке)

  3. Настройте ваш заказ:

    • Выберите Docker-образ

    • Установите порты (TCP для SSH, HTTP для веб-интерфейсов)

    • Добавьте переменные окружения при необходимости

    • Введите команду запуска

  4. Выберите способ оплаты: CLORE, BTC, или USDT/USDC

  5. Создайте заказ и дождитесь развертывания

Доступ к вашему серверу

  • Найдите данные для подключения в Моих заказах

  • Веб-интерфейсы: используйте URL HTTP-порта

  • SSH: ssh -p <port> root@<proxy-address>

Что такое GroundingDINO?

GroundingDINO от IDEA-Research предоставляет:

  • Обнаружение объектов в режиме zero-shot с текстовыми подсказками

  • Обнаруживайте любые объекты без обучения

  • Высокоточная локализация ограничительных рамок

  • Комбинируйте с SAM для автоматической сегментации

Ресурсы

Рекомендованное оборудование

Компонент
Минимум
Рекомендуется
Оптимально

GPU

RTX 3060 12GB

RTX 4080 16GB

RTX 4090 24GB

VRAM

6 ГБ

12GB

16GB

CPU

4 ядра

8 ядер

16 ядер

ОЗУ

16GB

32GB

64GB

Хранилище

20 ГБ SSD

50GB NVMe

100GB NVMe

Интернет

100 Мбит/с

500 Мбит/с

1 Гбит/с

Быстрое развертывание на CLORE.AI

Docker-образ:

Порты:

Команда:

Доступ к вашему сервису

После развертывания найдите ваш http_pub URL в Моих заказах:

  1. Перейдите на Моих заказах страницу

  2. Нажмите на ваш заказ

  3. Найдите http_pub URL (например, abc123.clorecloud.net)

Используйте https://YOUR_HTTP_PUB_URL вместо localhost в примерах ниже.

Установка

Что вы можете создать

Автоматическая разметка

  • Авто-аннотирование наборов данных для обучения ML

  • Генерация ограничительных рамок из описаний

  • Ускорение конвейеров разметки данных

Визуальный поиск

  • Поиск конкретных объектов в базе изображений

  • Системы модерации контента

  • Распознавание товаров в ритейле

Робототехника и автоматизация

  • Локализация объектов для роботизированных манипуляторов

  • Системы управления инвентарём

  • Инспекция контроля качества

Креативные приложения

  • Автоматическое кадрирование объектов с фотографий

  • Генерация масок объектов с помощью SAM

  • Редактирование изображений с учётом содержимого

Аналитика

  • Подсчёт объектов на изображениях

  • Отслеживание инвентаря по фотографиям

  • Мониторинг дикой природы

Базовое использование

GroundingDINO + SAM (Grounded-SAM)

Комбинируйте обнаружение с сегментацией:

Пакетная обработка

Пользовательский конвейер обнаружения

Интерфейс Gradio

Производительность

Задача
Разрешение
GPU
Скорость

Одно изображение

800x600

RTX 3090

120ms

Одно изображение

800x600

RTX 4090

80 мс

Одно изображение

1920x1080

RTX 4090

150ms

Пакетная обработка (10 изображений)

800x600

RTX 4090

600мс

Распространённые проблемы и решения

Низкая точность обнаружения

Проблема: Объекты не обнаруживаются

Решения:

  • Понизьте box_threshold до 0.2-0.3

  • Понизьте text_threshold до 0.15-0.2

  • Используйте более конкретные описания объектов

  • Разделяйте объекты знаком " . ", а не запятыми

Недостаточно памяти

Проблема: CUDA OOM на больших изображениях

Решения:

Медленная инференция

Проблема: Обнаружение занимает слишком много времени

Решения:

  • Используйте меньшие входные изображения

  • Обрабатывайте изображения пакетами

  • Используйте инференс в FP16

  • Арендуйте более быструю GPU (RTX 4090, A100)

Ложно-положительные срабатывания

Проблема: Обнаруживаются неверные объекты

Решения:

  • Увеличьте box_threshold до 0.4-0.5

  • Будьте более конкретны в подсказках

  • Используйте негативные подсказки (фильтруйте результаты после обнаружения)

Устранение неполадок

Объекты не обнаруживаются

  • Используйте более специфичные текстовые описания

  • Попробуйте другие формулировки

  • Понизьте порог уверенности

Ограничительные рамки неточны

  • Будьте более конкретны в текстовой подсказке

  • Используйте "." для разделения нескольких объектов

  • Проверить качество изображений

triangle-exclamation
  • Уменьшите разрешение изображения

  • Обрабатывайте изображения по одному

  • Используйте вариант модели поменьше

Медленная инференция

  • Используйте TensorRT для ускорения

  • Пакетируйте изображения похожего размера

  • Включите инференс в FP16

Оценка стоимости

Типичные ставки на маркетплейсе CLORE.AI (по состоянию на 2024):

GPU
Почасовая ставка
Дневная ставка
Сессия 4 часа

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Цены варьируются в зависимости от провайдера и спроса. Проверьте CLORE.AI Marketplacearrow-up-right для текущих тарифов.

Экономьте деньги:

  • Используйте Spot рынок для гибких рабочих нагрузок (часто на 30–50% дешевле)

  • Платите с помощью CLORE токенов

  • Сравнивайте цены у разных провайдеров

Дальнейшие шаги

  • SAM2 - Сегментация обнаруженных объектов

  • Florence-2 - Больше задач компьютерного зрения

  • YOLO - Более быстрое обнаружение для известных классов

Последнее обновление

Это было полезно?