Florence-2

Microsoft Florence-2 für Beschriftung, Erkennung und Segmentierung

Microsofts leistungsstarkes Visionsmodell für Beschriftung, Erkennung, Segmentierung und mehr.

circle-check
circle-info

Alle Beispiele in diesem Leitfaden können auf GPU-Servern ausgeführt werden, die über CLORE.AI Marketplacearrow-up-right Marktplatz ausgeführt werden.

Mieten auf CLORE.AI

  1. Nach GPU-Typ, VRAM und Preis filtern

  2. Wählen On-Demand (Festpreis) oder Spot (Gebotspreis)

  3. Konfigurieren Sie Ihre Bestellung:

    • Docker-Image auswählen

    • Ports festlegen (TCP für SSH, HTTP für Web-UIs)

    • Umgebungsvariablen bei Bedarf hinzufügen

    • Startbefehl eingeben

  4. Zahlung auswählen: CLORE, BTC, oder USDT/USDC

  5. Bestellung erstellen und auf Bereitstellung warten

Zugriff auf Ihren Server

  • Verbindungsdetails finden Sie in Meine Bestellungen

  • Webschnittstellen: Verwenden Sie die HTTP-Port-URL

  • SSH: ssh -p <port> root@<proxy-address>

Was ist Florence-2?

Florence-2 von Microsoft ist ein Vision-Foundation-Modell, das Folgendes handhabt:

  • Bildbeschriftung (kurz und ausführlich)

  • Objekterkennung und -lokalisierung

  • Dichte Regionen-Beschriftung

  • Verweisende Ausdrucksverständnis

  • OCR und Texterkennung

  • Visuelle Fragebeantwortung

Ressourcen

Empfohlene Hardware

Komponente
Minimum
Empfohlen
Optimal

GPU

RTX 3060 12GB

RTX 4080 16GB

RTX 4090 24GB

VRAM

8GB

12GB

16GB

CPU

4 Kerne

8 Kerne

16 Kerne

RAM

16GB

32GB

64GB

Speicher

30GB SSD

50GB NVMe

100GB NVMe

Internet

100 Mbps

500 Mbps

1 Gbps

Schnelle Bereitstellung auf CLORE.AI

Docker-Image:

Ports:

Befehl:

Zugriff auf Ihren Dienst

Nach der Bereitstellung finden Sie Ihre http_pub URL in Meine Bestellungen:

  1. Gehen Sie zur Meine Bestellungen Seite

  2. Klicken Sie auf Ihre Bestellung

  3. Finden Sie die http_pub URL (z. B., abc123.clorecloud.net)

Verwenden Sie https://IHRE_HTTP_PUB_URL anstelle von localhost in den Beispielen unten.

Installation

Was Sie erstellen können

Inhaltsanalyse

  • Bilderbeschreibungen automatisch erzeugen

  • Text aus Bildern extrahieren (OCR)

  • Visuellen Inhalt in großem Maßstab analysieren

Datenannotation

  • Datensätze automatisch mit Beschriftungen versehen

  • Begrenzungsrahmen für Objekte erzeugen

  • Dichte Annotationen erstellen

Barrierefreiheit

  • Alt-Text für Bilder generieren

  • Bilder für Sehbehinderte beschreiben

  • Audio-Beschreibungen erstellen

Suche & Entdeckung

  • Bilder nach Inhalt indexieren

  • Visuelle Suchsysteme aufbauen

  • Inhaltsmoderation

Dokumentenverarbeitung

  • Text aus Dokumenten extrahieren

  • Diagramme und Grafiken verstehen

  • Gescanntes Material verarbeiten

Grundlegende Verwendung

Bildbeschriftung

Objekterkennung

OCR (Texterkennung)

Dichte Regionen-Beschriftung

Verweisende Ausdrucksverständnis

Finde Objekte basierend auf Textbeschreibungen:

Alle verfügbaren Aufgaben

Batch-Verarbeitung

Gradio-Oberfläche

Leistung

Aufgabe
Auflösung
GPU
Geschwindigkeit

Beschriftung

768x768

RTX 3090

200ms

Beschriftung

768x768

RTX 4090

120ms

Objekterkennung

768x768

RTX 4090

150ms

OCR

768x768

RTX 4090

180ms

Dichte Beschriftung

768x768

A100

100ms

Modellvarianten

Modell
Parameter
VRAM
Geschwindigkeit

Florence-2-base

232M

4GB

Schnell

Florence-2-large

771M

8GB

Mittel

Florence-2-base-ft

232M

4GB

Schnell

Florence-2-large-ft

771M

8GB

Mittel

Häufige Probleme & Lösungen

Kein Speicher mehr

Problem: CUDA OOM-Fehler

Lösungen:

Langsame Inferenz

Problem: Die Verarbeitung dauert zu lange

Lösungen:

  • Verwenden Sie Florence-2-base für schnellere Inferenz

  • Installieren Sie flash-attention zur Beschleunigung

  • Bündeln Sie mehrere Bilder in einem Batch

  • Verwenden Sie eine A100-GPU für die Produktion

Schlechte OCR-Ergebnisse

Problem: Texterkennung ist ungenau

Lösungen:

  • Stellen Sie sicher, dass das Bild hochauflösend ist (mindestens 768px)

  • Verwenden Sie <OCR_WITH_REGION> für bessere Lokalisierung

  • Vorverarbeitung: Kontrast verbessern, Bild begradigen

  • Auf Textregionen zuschneiden vor OCR

Erkennung fehlt Objekte

Problem: Objekte werden nicht erkannt

Lösungen:

  • Verwenden Sie <DENSE_REGION_CAPTION> für mehr Regionen

  • Versuchen Sie <OPEN_VOCABULARY_DETECTION> mit spezifischen Labels

  • Kombinieren Sie mit GroundingDINO für spezifische Objekte

Fehlerbehebung

Aufgabe funktioniert nicht

  • Überprüfen Sie die genaue Tasksyntax

  • Einige Aufgaben erfordern ein spezifisches Eingabeformat

  • Stellen Sie sicher, dass die Modellversion zur Aufgabe passt

Ausgabeformat unerwartet

  • Verschiedene Aufgaben liefern unterschiedliche Formate

  • Parsen Sie die Ausgabe entsprechend dem Aufgabentyp

  • Überprüfen Sie die Dokumentation zu den Aufgaben-Ausgaben

CUDA-Speicherprobleme

  • Florence-2-large benötigt ~8GB VRAM

  • Verwenden Sie Florence-2-base für weniger Speicherbedarf

  • Aktivieren Sie Gradient Checkpointing

Langsame Verarbeitung

  • Verwenden Sie, wenn möglich, Batch-Inferenz

  • Aktivieren Sie den FP16-Modus

  • Erwägen Sie TensorRT-Optimierung

Kostenabschätzung

Typische CLORE.AI-Marktplatztarife (Stand 2024):

GPU
Stundensatz
Tagessatz
4-Stunden-Sitzung

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Preise variieren je nach Anbieter und Nachfrage. Prüfen Sie CLORE.AI Marketplacearrow-up-right auf aktuelle Preise.

Geld sparen:

  • Verwenden Sie Spot Markt für flexible Workloads (oft 30–50% günstiger)

  • Bezahlen mit CLORE Token

  • Preise bei verschiedenen Anbietern vergleichen

Nächste Schritte

Zuletzt aktualisiert

War das hilfreich?