GroundingDINO

Détectez n'importe quel objet en utilisant des descriptions textuelles avec GroundingDINO

Détectez n'importe quel objet en utilisant des descriptions textuelles avec GroundingDINO.

circle-check
circle-info

Tous les exemples de ce guide peuvent être exécutés sur des serveurs GPU loués via CLORE.AI Marketplacearrow-up-right le marketplace.

Location sur CLORE.AI

  1. Filtrer par type de GPU, VRAM et prix

  2. Choisir À la demande (tarif fixe) ou Spot (prix d'enchère)

  3. Configurez votre commande :

    • Sélectionnez l'image Docker

    • Définissez les ports (TCP pour SSH, HTTP pour les interfaces web)

    • Ajoutez des variables d'environnement si nécessaire

    • Entrez la commande de démarrage

  4. Sélectionnez le paiement : CLORE, BTC, ou USDT/USDC

  5. Créez la commande et attendez le déploiement

Accédez à votre serveur

  • Trouvez les détails de connexion dans Mes commandes

  • Interfaces Web : utilisez l'URL du port HTTP

  • SSH : ssh -p <port> root@<adresse-proxy>

Qu'est-ce que GroundingDINO ?

GroundingDINO par IDEA-Research permet :

  • Détection d'objets zero-shot avec des invites textuelles

  • Détecter n'importe quel objet sans entraînement

  • Localisation de boîtes englobantes haute précision

  • Combiner avec SAM pour la segmentation automatique

Ressources

Matériel recommandé

Composant
Minimum
Recommandé
Optimal

GPU

RTX 3060 12GB

RTX 4080 16GB

RTX 4090 24GB

VRAM

6 Go

12Go

16Go

CPU

4 cœurs

8 cœurs

16 cœurs

RAM

16Go

32Go

64Go

Stockage

SSD 20 Go

50Go NVMe

100Go NVMe

Internet

100 Mbps

500 Mbps

1 Gbps

Déploiement rapide sur CLORE.AI

Image Docker :

Ports :

Commande :

Accéder à votre service

Après le déploiement, trouvez votre http_pub URL dans Mes commandes:

  1. Aller à la Mes commandes page

  2. Cliquez sur votre commande

  3. Trouvez l' http_pub URL (par ex., abc123.clorecloud.net)

Utilisez https://VOTRE_HTTP_PUB_URL au lieu de localhost dans les exemples ci-dessous.

Installation

Ce que vous pouvez créer

Étiquetage automatisé

  • Auto-annoter des jeux de données pour l'entraînement ML

  • Générer des boîtes englobantes à partir de descriptions

  • Accélérer les pipelines d'étiquetage de données

Recherche visuelle

  • Trouver des objets spécifiques dans des bases d'images

  • Systèmes de modération de contenu

  • Reconnaissance de produits dans le commerce de détail

Robotique et automatisation

  • Localisation d'objets pour bras robotiques

  • Systèmes de gestion des stocks

  • Inspection de contrôle qualité

Applications créatives

  • Rogner automatiquement les sujets des photos

  • Générer des masques d'objet avec SAM

  • Édition d'image intelligente selon le contenu

Analyse

  • Compter les objets dans les images

  • Suivre l'inventaire à partir de photos

  • Surveillance de la faune

Utilisation de base

GroundingDINO + SAM (Grounded-SAM)

Combiner la détection avec la segmentation :

Traitement par lots

Pipeline de détection personnalisé

Interface Gradio

Performances

Tâche
Résolution
GPU
Vitesse

Image unique

800x600

RTX 3090

120ms

Image unique

800x600

RTX 4090

80 ms

Image unique

1920x1080

RTX 4090

150ms

Traitement par lot (10 images)

800x600

RTX 4090

600ms

Problèmes courants et solutions

Faible précision de détection

Problème : Objets non détectés

Solutions :

  • Plus bas box_threshold à 0.2-0.3

  • Plus bas text_threshold à 0.15-0.2

  • Utiliser des descriptions d'objet plus spécifiques

  • Séparer les objets avec " . " et non des virgules

Mémoire insuffisante

Problème : OOM CUDA sur les grandes images

Solutions :

Inférence lente

Problème : La détection prend trop de temps

Solutions :

  • Utiliser des images d'entrée plus petites

  • Traiter plusieurs images par lot

  • Utiliser l'inférence FP16

  • Louer un GPU plus rapide (RTX 4090, A100)

Faux positifs

Problème : Détection d'objets incorrects

Solutions :

  • Augmentez box_threshold à 0.4-0.5

  • Être plus précis dans les invites

  • Utiliser des invites négatives (filtrer les résultats après détection)

Dépannage

Objets non détectés

  • Utiliser des descriptions textuelles plus spécifiques

  • Essayer différentes formulations

  • Abaisser le seuil de confiance

Boîtes englobantes incorrectes

  • Être plus précis dans l'invite textuelle

  • Utiliser "." pour séparer plusieurs objets

  • Vérifier la qualité des images

triangle-exclamation
  • Réduire la résolution de l'image

  • Traiter les images une par une

  • Utiliser une variante de modèle plus petite

Inférence lente

  • Utiliser TensorRT pour accélérer

  • Traiter par lots des images de taille similaire

  • Activer l'inférence FP16

Estimation des coûts

Tarifs typiques du marché CLORE.AI (à partir de 2024) :

GPU
Tarif horaire
Tarif journalier
Session de 4 heures

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Les prix varient selon le fournisseur et la demande. Vérifiez CLORE.AI Marketplacearrow-up-right pour les tarifs actuels.

Économisez de l'argent :

  • Utilisez Spot market pour les charges de travail flexibles (souvent 30-50 % moins cher)

  • Payer avec CLORE jetons

  • Comparer les prix entre différents fournisseurs

Prochaines étapes

  • SAM2 - Segmenter les objets détectés

  • Florence-2 - Plus de tâches de vision

  • YOLO - Détection plus rapide pour des classes connues

Mis à jour

Ce contenu vous a-t-il été utile ?