GroundingDINO

Erkennen Sie beliebige Objekte mittels Textbeschreibungen mit GroundingDINO

Erkenne beliebige Objekte mithilfe von Textbeschreibungen mit GroundingDINO.

circle-check
circle-info

Alle Beispiele in diesem Leitfaden können auf GPU-Servern ausgeführt werden, die über CLORE.AI Marketplacearrow-up-right Marktplatz ausgeführt werden.

Mieten auf CLORE.AI

  1. Nach GPU-Typ, VRAM und Preis filtern

  2. Wählen On-Demand (Festpreis) oder Spot (Gebotspreis)

  3. Konfigurieren Sie Ihre Bestellung:

    • Docker-Image auswählen

    • Ports festlegen (TCP für SSH, HTTP für Web-UIs)

    • Umgebungsvariablen bei Bedarf hinzufügen

    • Startbefehl eingeben

  4. Zahlung auswählen: CLORE, BTC, oder USDT/USDC

  5. Bestellung erstellen und auf Bereitstellung warten

Zugriff auf Ihren Server

  • Verbindungsdetails finden Sie in Meine Bestellungen

  • Webschnittstellen: Verwenden Sie die HTTP-Port-URL

  • SSH: ssh -p <port> root@<proxy-address>

Was ist GroundingDINO?

GroundingDINO von IDEA-Research ermöglicht:

  • Zero-Shot-Objekterkennung mit Textprompten

  • Erkenne beliebige Objekte ohne Training

  • Hochpräzise Lokalisierung mit Begrenzungsrahmen

  • Kombinierbar mit SAM für automatische Segmentierung

Ressourcen

Empfohlene Hardware

Komponente
Minimum
Empfohlen
Optimal

GPU

RTX 3060 12GB

RTX 4080 16GB

RTX 4090 24GB

VRAM

6GB

12GB

16GB

CPU

4 Kerne

8 Kerne

16 Kerne

RAM

16GB

32GB

64GB

Speicher

20GB SSD

50GB NVMe

100GB NVMe

Internet

100 Mbps

500 Mbps

1 Gbps

Schnelle Bereitstellung auf CLORE.AI

Docker-Image:

Ports:

Befehl:

Zugriff auf Ihren Dienst

Nach der Bereitstellung finden Sie Ihre http_pub URL in Meine Bestellungen:

  1. Gehen Sie zur Meine Bestellungen Seite

  2. Klicken Sie auf Ihre Bestellung

  3. Finden Sie die http_pub URL (z. B., abc123.clorecloud.net)

Verwenden Sie https://IHRE_HTTP_PUB_URL anstelle von localhost in den Beispielen unten.

Installation

Was Sie erstellen können

Automatisierte Beschriftung

  • Automatische Annotierung von Datensätzen für ML-Training

  • Erzeuge Begrenzungsrahmen aus Beschreibungen

  • Beschleunige Datenbeschriftungspipelines

Visuelle Suche

  • Finde bestimmte Objekte in Bilddatenbanken

  • Systeme zur Inhaltsmoderation

  • Produkterkennung im Einzelhandel

Robotik & Automation

  • Objektlokalisierung für Roboterarme

  • Inventarverwaltungssysteme

  • Qualitätskontrollinspektion

Kreative Anwendungen

  • Automatisches Zuschneiden von Motiven aus Fotos

  • Generiere Objektmasken mit SAM

  • Inhaltsbewusstes Bildbearbeiten

Analytik

  • Zähle Objekte in Bildern

  • Verfolge Inventar anhand von Fotos

  • Wildtierüberwachung

Grundlegende Verwendung

GroundingDINO + SAM (Grounded-SAM)

Kombiniere Erkennung mit Segmentierung:

Batch-Verarbeitung

Eigene Erkennungspipeline

Gradio-Oberfläche

Leistung

Aufgabe
Auflösung
GPU
Geschwindigkeit

Einzelnes Bild

800x600

RTX 3090

120ms

Einzelnes Bild

800x600

RTX 4090

80ms

Einzelnes Bild

1920x1080

RTX 4090

150ms

Batch (10 Bilder)

800x600

RTX 4090

600ms

Häufige Probleme & Lösungen

Geringe Erkennungsgenauigkeit

Problem: Objekte werden nicht erkannt

Lösungen:

  • Niedriger box_threshold auf 0.2-0.3

  • Niedriger text_threshold auf 0.15-0.2

  • Verwende spezifischere Objektbeschreibungen

  • Trenne Objekte mit " . " und nicht mit Kommas

Kein Speicher mehr

Problem: CUDA OOM bei großen Bildern

Lösungen:

Langsame Inferenz

Problem: Erkennung dauert zu lange

Lösungen:

  • Verwende kleinere Eingabebilder

  • Verarbeite mehrere Bilder im Batch

  • Verwende FP16-Inferenz

  • Miete schnellere GPU (RTX 4090, A100)

Falsch positive Ergebnisse

Problem: Falsche Objekte werden erkannt

Lösungen:

  • Erhöhen Sie box_threshold auf 0.4-0.5

  • Sei spezifischer in den Prompts

  • Verwende negative Prompts (Ergebnisse nach der Erkennung filtern)

Fehlerbehebung

Objekte werden nicht erkannt

  • Verwende spezifischere Textbeschreibungen

  • Probiere unterschiedliche Formulierungen

  • Senk die Konfidenzschwelle

Begrenzungsrahmen sind falsch

  • Sei im Textprompt spezifischer

  • Verwende "." um mehrere Objekte zu trennen

  • Bildqualität prüfen

triangle-exclamation
  • Reduziere die Bildauflösung

  • Verarbeite Bilder einzeln

  • Verwende eine kleinere Modellvariante

Langsame Inferenz

  • Verwende TensorRT zur Beschleunigung

  • Batche Bilder ähnlicher Größe

  • Aktiviere FP16-Inferenz

Kostenabschätzung

Typische CLORE.AI-Marktplatztarife (Stand 2024):

GPU
Stundensatz
Tagessatz
4-Stunden-Sitzung

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Preise variieren je nach Anbieter und Nachfrage. Prüfen Sie CLORE.AI Marketplacearrow-up-right auf aktuelle Preise.

Geld sparen:

  • Verwenden Sie Spot Markt für flexible Workloads (oft 30–50% günstiger)

  • Bezahlen mit CLORE Token

  • Preise bei verschiedenen Anbietern vergleichen

Nächste Schritte

  • SAM2 - Segmentieren erkannter Objekte

  • Florence-2 - Mehr Vision-Aufgaben

  • YOLO - Schnellere Erkennung für bekannte Klassen

Zuletzt aktualisiert

War das hilfreich?