Florence-2

Microsoft Florence-2 pour le captioning, la détection et la segmentation

Le puissant modèle de vision de Microsoft pour la génération de légendes, la détection, la segmentation et plus encore.

circle-check
circle-info

Tous les exemples de ce guide peuvent être exécutés sur des serveurs GPU loués via CLORE.AI Marketplacearrow-up-right le marketplace.

Location sur CLORE.AI

  1. Filtrer par type de GPU, VRAM et prix

  2. Choisir À la demande (tarif fixe) ou Spot (prix d'enchère)

  3. Configurez votre commande :

    • Sélectionnez l'image Docker

    • Définissez les ports (TCP pour SSH, HTTP pour les interfaces web)

    • Ajoutez des variables d'environnement si nécessaire

    • Entrez la commande de démarrage

  4. Sélectionnez le paiement : CLORE, BTC, ou USDT/USDC

  5. Créez la commande et attendez le déploiement

Accédez à votre serveur

  • Trouvez les détails de connexion dans Mes commandes

  • Interfaces Web : utilisez l'URL du port HTTP

  • SSH : ssh -p <port> root@<adresse-proxy>

Qu'est-ce que Florence-2 ?

Florence-2 de Microsoft est un modèle de base pour la vision qui gère :

  • Génération de légendes d'images (brèves et détaillées)

  • Détection et localisation d'objets

  • Légendage dense de régions

  • Compréhension d'expressions référentielles

  • OCR et reconnaissance de texte

  • Question-réponse visuelle

Ressources

Matériel recommandé

Composant
Minimum
Recommandé
Optimal

GPU

RTX 3060 12GB

RTX 4080 16GB

RTX 4090 24GB

VRAM

8 Go

12Go

16Go

CPU

4 cœurs

8 cœurs

16 cœurs

RAM

16Go

32Go

64Go

Stockage

30Go SSD

50Go NVMe

100Go NVMe

Internet

100 Mbps

500 Mbps

1 Gbps

Déploiement rapide sur CLORE.AI

Image Docker :

Ports :

Commande :

Accéder à votre service

Après le déploiement, trouvez votre http_pub URL dans Mes commandes:

  1. Aller à la Mes commandes page

  2. Cliquez sur votre commande

  3. Trouvez l' http_pub URL (par ex., abc123.clorecloud.net)

Utilisez https://VOTRE_HTTP_PUB_URL au lieu de localhost dans les exemples ci-dessous.

Installation

Ce que vous pouvez créer

Analyse de contenu

  • Générer automatiquement des descriptions d'images

  • Extraire le texte des images (OCR)

  • Analyser le contenu visuel à grande échelle

Annotation de données

  • Étiqueter automatiquement les jeux de données avec des légendes

  • Générer des boîtes englobantes pour les objets

  • Créer des annotations denses

Accessibilité

  • Générer du texte alternatif pour les images

  • Décrire les images pour les malvoyants

  • Créer des descriptions audio

Recherche et découverte

  • Indexer les images par contenu

  • Construire des systèmes de recherche visuelle

  • Modération de contenu

Traitement de documents

  • Extraire le texte des documents

  • Comprendre les graphiques et diagrammes

  • Traiter les documents numérisés

Utilisation de base

Génération de légendes d'images

Détection d'objets

OCR (Reconnaissance de texte)

Légendage dense de régions

Compréhension d'expressions référentielles

Trouver des objets à partir de descriptions textuelles :

Toutes les tâches disponibles

Traitement par lots

Interface Gradio

Performances

Tâche
Résolution
GPU
Vitesse

Légende

768x768

RTX 3090

200ms

Légende

768x768

RTX 4090

120ms

Détection d'objets

768x768

RTX 4090

150ms

OCR

768x768

RTX 4090

180ms

Légende dense

768x768

A100

100ms

Variantes de modèle

Modèle
Paramètres
VRAM
Vitesse

Florence-2-base

232M

4 Go

Rapide

Florence-2-large

771M

8 Go

Moyen

Florence-2-base-ft

232M

4 Go

Rapide

Florence-2-large-ft

771M

8 Go

Moyen

Problèmes courants et solutions

Mémoire insuffisante

Problème : Erreur OOM CUDA

Solutions :

Inférence lente

Problème : Le traitement prend trop de temps

Solutions :

  • Utiliser Florence-2-base pour une inférence plus rapide

  • Installer flash-attention pour accélérer

  • Regrouper plusieurs images en lot

  • Utiliser un GPU A100 en production

Mauvais résultats OCR

Problème : La reconnaissance de texte est inexacte

Solutions :

  • Assurez-vous que l'image est de haute résolution (au moins 768px)

  • Utilisez <OCR_WITH_REGION> pour une meilleure localisation

  • Pré-traitement : améliorer le contraste, redresser l'image

  • Rogner vers les régions de texte avant l'OCR

Détection : objets manquants

Problème : Objets non détectés

Solutions :

  • Utilisez <DENSE_REGION_CAPTION> pour plus de régions

  • Essayez <OPEN_VOCABULARY_DETECTION> avec des libellés spécifiques

  • Combiner avec GroundingDINO pour des objets spécifiques

Dépannage

Tâche ne fonctionnant pas

  • Vérifiez la syntaxe exacte du nom de la tâche

  • Certaines tâches nécessitent un format d'entrée spécifique

  • Vérifiez que la version du modèle correspond à la tâche

Format de sortie inattendu

  • Différentes tâches renvoient des formats différents

  • Analyser la sortie selon le type de tâche

  • Consultez la documentation pour les sorties des tâches

Problèmes de mémoire CUDA

  • Florence-2-large nécessite ~8 Go de VRAM

  • Utiliser Florence-2-base pour moins de mémoire

  • Activer le gradient checkpointing

Traitement lent

  • Utiliser l'inférence par lots lorsque possible

  • Activer le mode FP16

  • Envisager l'optimisation TensorRT

Estimation des coûts

Tarifs typiques du marché CLORE.AI (à partir de 2024) :

GPU
Tarif horaire
Tarif journalier
Session de 4 heures

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Les prix varient selon le fournisseur et la demande. Vérifiez CLORE.AI Marketplacearrow-up-right pour les tarifs actuels.

Économisez de l'argent :

  • Utilisez Spot market pour les charges de travail flexibles (souvent 30-50 % moins cher)

  • Payer avec CLORE jetons

  • Comparer les prix entre différents fournisseurs

Prochaines étapes

Mis à jour

Ce contenu vous a-t-il été utile ?