Florence-2

Microsoft Florence-2 para subtitulado, detección y segmentación

El potente modelo visual de Microsoft para subtitulado, detección, segmentación y más.

circle-check
circle-info

Todos los ejemplos en esta guía se pueden ejecutar en servidores GPU alquilados a través de CLORE.AI Marketplacearrow-up-right mercado.

Alquilar en CLORE.AI

  1. Filtrar por tipo de GPU, VRAM y precio

  2. Elegir Bajo demanda (tarifa fija) o Spot (precio de puja)

  3. Configura tu pedido:

    • Selecciona imagen Docker

    • Establece puertos (TCP para SSH, HTTP para interfaces web)

    • Agrega variables de entorno si es necesario

    • Introduce el comando de inicio

  4. Selecciona pago: CLORE, BTC, o USDT/USDC

  5. Crea el pedido y espera el despliegue

Accede a tu servidor

  • Encuentra los detalles de conexión en Mis Pedidos

  • Interfaces web: Usa la URL del puerto HTTP

  • SSH: ssh -p <port> root@<proxy-address>

¿Qué es Florence-2?

Florence-2 de Microsoft es un modelo base de visión que maneja:

  • Generación de subtítulos para imágenes (breve y detallado)

  • Detección y localización de objetos

  • Subtitulado denso de regiones

  • Comprensión de expresiones referenciales

  • OCR y reconocimiento de texto

  • Respuesta visual a preguntas

Recursos

Hardware recomendado

Componente
Mínimo
Recomendado
Óptimo

GPU

RTX 3060 12GB

RTX 4080 16GB

RTX 4090 24GB

VRAM

8GB

12GB

16GB

CPU

4 núcleos

8 núcleos

16 núcleos

RAM

16GB

32GB

64GB

Almacenamiento

30GB SSD

50GB NVMe

100GB NVMe

Internet

100 Mbps

500 Mbps

1 Gbps

Despliegue rápido en CLORE.AI

Imagen Docker:

Puertos:

Comando:

Accediendo a tu servicio

Después del despliegue, encuentra tu http_pub URL en Mis Pedidos:

  1. Ir a Mis Pedidos página

  2. Haz clic en tu pedido

  3. Encuentra la http_pub URL (por ejemplo, abc123.clorecloud.net)

Usa https://TU_HTTP_PUB_URL en lugar de localhost en los ejemplos abajo.

Instalación

Lo que puedes crear

Análisis de contenido

  • Generar descripciones de imágenes automáticamente

  • Extraer texto de imágenes (OCR)

  • Analizar contenido visual a gran escala

Anotación de datos

  • Etiquetar conjuntos de datos automáticamente con subtítulos

  • Generar cuadros delimitadores para objetos

  • Crear anotaciones densas

Accesibilidad

  • Generar texto alternativo para imágenes

  • Describir imágenes para personas con discapacidad visual

  • Crear descripciones de audio

Búsqueda y descubrimiento

  • Indexar imágenes por contenido

  • Construir sistemas de búsqueda visual

  • Moderación de contenido

Procesamiento de documentos

  • Extraer texto de documentos

  • Entender gráficos y diagramas

  • Procesar materiales escaneados

Uso básico

Generación de subtítulos para imágenes

Detección de objetos

OCR (Reconocimiento de texto)

Subtitulado denso de regiones

Comprensión de expresiones referenciales

Encontrar objetos basados en descripciones de texto:

Todas las tareas disponibles

Procesamiento por lotes

Interfaz Gradio

Rendimiento

Tarea
Resolución
GPU
Velocidad

Subtítulo

768x768

RTX 3090

200ms

Subtítulo

768x768

RTX 4090

120ms

Detección de objetos

768x768

RTX 4090

150ms

OCR

768x768

RTX 4090

180ms

Subtítulo denso

768x768

A100

100ms

Variantes de modelo

Modelo
Parámetros
VRAM
Velocidad

Florence-2-base

232M

4GB

Rápido

Florence-2-large

771M

8GB

Medio

Florence-2-base-ft

232M

4GB

Rápido

Florence-2-large-ft

771M

8GB

Medio

Problemas comunes y soluciones

Memoria insuficiente

Problema: Error de OOM en CUDA

Soluciones:

Inferencia lenta

Problema: El procesamiento tarda demasiado

Soluciones:

  • Usar Florence-2-base para inferencia más rápida

  • Instalar flash-attention para acelerar

  • Procesar múltiples imágenes en lote

  • Usar GPU A100 para producción

Resultados pobres de OCR

Problema: El reconocimiento de texto es inexacto

Soluciones:

  • Asegúrese de que la imagen tenga alta resolución (al menos 768px)

  • Usa <OCR_WITH_REGION> para una mejor localización

  • Preprocesamiento: mejorar contraste, enderezar la imagen

  • Recortar las regiones de texto antes del OCR

Detección: objetos faltantes

Problema: Objetos no detectados

Soluciones:

  • Usa <DENSE_REGION_CAPTION> para más regiones

  • Intenta <OPEN_VOCABULARY_DETECTION> con etiquetas específicas

  • Combinar con GroundingDINO para objetos específicos

Solución de problemas

La tarea no funciona

  • Verifique la sintaxis exacta del nombre de la tarea

  • Algunas tareas requieren un formato de entrada específico

  • Verifique que la versión del modelo coincida con la tarea

Formato de salida inesperado

  • Diferentes tareas devuelven diferentes formatos

  • Analice la salida según el tipo de tarea

  • Consulte la documentación para las salidas de las tareas

Problemas de memoria de CUDA

  • Florence-2-large necesita ~8GB de VRAM

  • Usar Florence-2-base para menos memoria

  • Habilitar gradient checkpointing

Procesamiento lento

  • Usar inferencia por lotes cuando sea posible

  • Habilitar modo FP16

  • Considerar la optimización con TensorRT

Estimación de costos

Tarifas típicas del marketplace de CLORE.AI (a fecha de 2024):

GPU
Tarifa por hora
Tarifa diaria
Sesión de 4 horas

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Los precios varían según el proveedor y la demanda. Consulta CLORE.AI Marketplacearrow-up-right para las tarifas actuales.

Ahorra dinero:

  • Usa Spot market para cargas de trabajo flexibles (a menudo 30-50% más barato)

  • Paga con CLORE tokens

  • Compara precios entre diferentes proveedores

Próximos pasos

  • LLaVA - Chat visual y preguntas y respuestas

  • GroundingDINO - Detección sin entrenamiento (zero-shot)

  • SAM2 - Segmentar objetos detectados

Última actualización

¿Te fue útil?