GroundingDINO

Detecta cualquier objeto usando descripciones de texto con GroundingDINO

Detecta cualquier objeto usando descripciones de texto con GroundingDINO.

circle-check
circle-info

Todos los ejemplos en esta guía se pueden ejecutar en servidores GPU alquilados a través de CLORE.AI Marketplacearrow-up-right mercado.

Alquilar en CLORE.AI

  1. Filtrar por tipo de GPU, VRAM y precio

  2. Elegir Bajo demanda (tarifa fija) o Spot (precio de puja)

  3. Configura tu pedido:

    • Selecciona imagen Docker

    • Establece puertos (TCP para SSH, HTTP para interfaces web)

    • Agrega variables de entorno si es necesario

    • Introduce el comando de inicio

  4. Selecciona pago: CLORE, BTC, o USDT/USDC

  5. Crea el pedido y espera el despliegue

Accede a tu servidor

  • Encuentra los detalles de conexión en Mis Pedidos

  • Interfaces web: Usa la URL del puerto HTTP

  • SSH: ssh -p <port> root@<proxy-address>

¿Qué es GroundingDINO?

GroundingDINO de IDEA-Research permite:

  • Detección de objetos zero-shot con indicaciones de texto

  • Detectar cualquier objeto sin entrenamiento

  • Localización de cuadros delimitadores de alta precisión

  • Combinar con SAM para segmentación automática

Recursos

Hardware recomendado

Componente
Mínimo
Recomendado
Óptimo

GPU

RTX 3060 12GB

RTX 4080 16GB

RTX 4090 24GB

VRAM

6GB

12GB

16GB

CPU

4 núcleos

8 núcleos

16 núcleos

RAM

16GB

32GB

64GB

Almacenamiento

SSD de 20 GB

50GB NVMe

100GB NVMe

Internet

100 Mbps

500 Mbps

1 Gbps

Despliegue rápido en CLORE.AI

Imagen Docker:

Puertos:

Comando:

Accediendo a tu servicio

Después del despliegue, encuentra tu http_pub URL en Mis Pedidos:

  1. Ir a Mis Pedidos página

  2. Haz clic en tu pedido

  3. Encuentra la http_pub URL (por ejemplo, abc123.clorecloud.net)

Usa https://TU_HTTP_PUB_URL en lugar de localhost en los ejemplos abajo.

Instalación

Lo que puedes crear

Etiquetado automatizado

  • Auto-anotar conjuntos de datos para entrenamiento de ML

  • Generar cuadros delimitadores a partir de descripciones

  • Acelerar las canalizaciones de etiquetado de datos

Búsqueda visual

  • Encontrar objetos específicos en bases de imágenes

  • Sistemas de moderación de contenido

  • Reconocimiento de productos en retail

Robótica y automatización

  • Localización de objetos para brazos robóticos

  • Sistemas de gestión de inventario

  • Inspección de control de calidad

Aplicaciones creativas

  • Recortar automáticamente sujetos de fotos

  • Generar máscaras de objetos con SAM

  • Edición de imágenes consciente del contenido

Analítica

  • Contar objetos en imágenes

  • Rastrear inventario desde fotos

  • Monitoreo de vida silvestre

Uso básico

GroundingDINO + SAM (Grounded-SAM)

Combinar detección con segmentación:

Procesamiento por lotes

Canalización de detección personalizada

Interfaz Gradio

Rendimiento

Tarea
Resolución
GPU
Velocidad

Imagen única

800x600

RTX 3090

120ms

Imagen única

800x600

RTX 4090

80ms

Imagen única

1920x1080

RTX 4090

150ms

Lote (10 imágenes)

800x600

RTX 4090

600ms

Problemas comunes y soluciones

Baja precisión de detección

Problema: Objetos que no se detectan

Soluciones:

  • Reduce box_threshold a 0.2-0.3

  • Reduce text_threshold a 0.15-0.2

  • Usar descripciones de objetos más específicas

  • Separar objetos con " . " no con comas

Memoria insuficiente

Problema: CUDA OOM en imágenes grandes

Soluciones:

Inferencia lenta

Problema: La detección toma demasiado tiempo

Soluciones:

  • Usar imágenes de entrada más pequeñas

  • Procesar múltiples imágenes por lotes

  • Usar inferencia en FP16

  • Alquilar GPU más rápida (RTX 4090, A100)

Falsos positivos

Problema: Detectando objetos incorrectos

Soluciones:

  • Aumente box_threshold a 0.4-0.5

  • Ser más específico en las indicaciones

  • Usar indicaciones negativas (filtrar resultados después de la detección)

Solución de problemas

Objetos no detectados

  • Usar descripciones de texto más específicas

  • Probar diferentes redacciones

  • Bajar el umbral de confianza

Cuadros delimitadores incorrectos

  • Ser más específico en la indicación de texto

  • Usar "." para separar múltiples objetos

  • Comprobar la calidad de las imágenes

triangle-exclamation
  • Reducir la resolución de la imagen

  • Procesar imágenes una a la vez

  • Usar una variante de modelo más pequeña

Inferencia lenta

  • Usar TensorRT para aceleración

  • Agrupar imágenes de tamaño similar por lotes

  • Habilitar inferencia FP16

Estimación de costos

Tarifas típicas del marketplace de CLORE.AI (a fecha de 2024):

GPU
Tarifa por hora
Tarifa diaria
Sesión de 4 horas

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Los precios varían según el proveedor y la demanda. Consulta CLORE.AI Marketplacearrow-up-right para las tarifas actuales.

Ahorra dinero:

  • Usa Spot market para cargas de trabajo flexibles (a menudo 30-50% más barato)

  • Paga con CLORE tokens

  • Compara precios entre diferentes proveedores

Próximos pasos

  • SAM2 - Segmentar objetos detectados

  • Florence-2 - Más tareas de visión

  • YOLO - Detección más rápida para clases conocidas

Última actualización

¿Te fue útil?