Florence-2

Microsoft Florence-2 для подписи, обнаружения и сегментации

Мощная визуальная модель Microsoft для генерации подписей, детекции, сегментации и не только.

circle-check
circle-info

Все примеры в этом руководстве можно запустить на GPU-серверах, арендуемых через CLORE.AI Marketplacearrow-up-right маркетплейс.

Аренда на CLORE.AI

  1. Отфильтруйте по типу GPU, объему VRAM и цене

  2. Выберите On-Demand (фиксированная ставка) или Spot (цена по ставке)

  3. Настройте ваш заказ:

    • Выберите Docker-образ

    • Установите порты (TCP для SSH, HTTP для веб-интерфейсов)

    • Добавьте переменные окружения при необходимости

    • Введите команду запуска

  4. Выберите способ оплаты: CLORE, BTC, или USDT/USDC

  5. Создайте заказ и дождитесь развертывания

Доступ к вашему серверу

  • Найдите данные для подключения в Моих заказах

  • Веб-интерфейсы: используйте URL HTTP-порта

  • SSH: ssh -p <port> root@<proxy-address>

Что такое Florence-2?

Florence-2 от Microsoft — это фундаментальная визуальная модель, которая выполняет:

  • Генерация подписей к изображению (краткие и подробные)

  • Обнаружение объектов и локализация

  • Плотная региональная генерация подписей

  • Понимание референтных выражений

  • OCR и распознавание текста

  • Визуальные вопросы и ответы

Ресурсы

Рекомендованное оборудование

Компонент
Минимум
Рекомендуется
Оптимально

GPU

RTX 3060 12GB

RTX 4080 16GB

RTX 4090 24GB

VRAM

8GB

12GB

16GB

CPU

4 ядра

8 ядер

16 ядер

ОЗУ

16GB

32GB

64GB

Хранилище

30GB SSD

50GB NVMe

100GB NVMe

Интернет

100 Мбит/с

500 Мбит/с

1 Гбит/с

Быстрое развертывание на CLORE.AI

Docker-образ:

Порты:

Команда:

Доступ к вашему сервису

После развертывания найдите ваш http_pub URL в Моих заказах:

  1. Перейдите на Моих заказах страницу

  2. Нажмите на ваш заказ

  3. Найдите http_pub URL (например, abc123.clorecloud.net)

Используйте https://YOUR_HTTP_PUB_URL вместо localhost в примерах ниже.

Установка

Что вы можете создать

Анализ контента

  • Авто‑генерация описаний изображений

  • Извлечение текста из изображений (OCR)

  • Анализ визуального контента в масштабах

Аннотация данных

  • Автоматическая разметка наборов данных с подписями

  • Генерация ограничивающих рамок для объектов

  • Создание плотных аннотаций

Доступность

  • Генерация alt-текста для изображений

  • Описание изображений для людей с нарушением зрения

  • Создание аудиоописаний

Поиск и обнаружение

  • Индексация изображений по содержимому

  • Построение систем визуального поиска

  • Модерация контента

Обработка документов

  • Извлечение текста из документов

  • Понимание диаграмм и графиков

  • Обработка отсканированных материалов

Базовое использование

Генерация подписей к изображениям

Обнаружение объектов

OCR (распознавание текста)

Плотная региональная генерация подписей

Понимание референтных выражений

Найдите объекты по текстовым описаниям:

Все доступные задачи

Пакетная обработка

Интерфейс Gradio

Производительность

Задача
Разрешение
GPU
Скорость

Подпись

768x768

RTX 3090

200ms

Подпись

768x768

RTX 4090

120ms

Обнаружение объектов

768x768

RTX 4090

150ms

OCR

768x768

RTX 4090

180ms

Плотная подпись

768x768

A100

100ms

Варианты моделей

Модель
Параметры
VRAM
Скорость

Florence-2-base

232M

4 ГБ

Быстро

Florence-2-large

771M

8GB

Средне

Florence-2-base-ft

232M

4 ГБ

Быстро

Florence-2-large-ft

771M

8GB

Средне

Распространённые проблемы и решения

Недостаточно памяти

Проблема: Ошибка CUDA OOM

Решения:

Медленная инференция

Проблема: Обработка занимает слишком много времени

Решения:

  • Используйте Florence-2-base для более быстрой инференции

  • Установите flash-attention для ускорения

  • Объединяйте несколько изображений в пакет

  • Используйте GPU A100 для продакшена

Плохие результаты OCR

Проблема: Распознавание текста неточно

Решения:

  • Убедитесь, что изображение высокого разрешения (как минимум 768px)

  • Используйте <OCR_WITH_REGION> для лучшей локализации

  • Предобработка: усилите контраст, выровняйте изображение

  • Обрезайте до областей с текстом перед OCR

Детекция не находит объекты

Проблема: Объекты не обнаруживаются

Решения:

  • Используйте <DENSE_REGION_CAPTION> для большего количества регионов

  • Попробуйте <OPEN_VOCABULARY_DETECTION> с конкретными метками

  • Комбинируйте с GroundingDINO для поиска конкретных объектов

Устранение неполадок

Задача не работает

  • Проверьте точный синтаксис имени задачи

  • Некоторым задачам требуется специфический формат ввода

  • Убедитесь, что версия модели соответствует задаче

Непредвиденный формат вывода

  • Разные задачи возвращают разные форматы

  • Парсите вывод в соответствии с типом задачи

  • Проверьте документацию по выходным данным задач

Проблемы с памятью CUDA

  • Florence-2-large требует ~8GB видеопамяти

  • Используйте Florence-2-base для меньшего потребления памяти

  • Включите gradient checkpointing

Медленная обработка

  • Используйте пакетную инференцию, когда это возможно

  • Включите режим FP16

  • Рассмотрите оптимизацию с помощью TensorRT

Оценка стоимости

Типичные ставки на маркетплейсе CLORE.AI (по состоянию на 2024):

GPU
Почасовая ставка
Дневная ставка
Сессия 4 часа

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Цены варьируются в зависимости от провайдера и спроса. Проверьте CLORE.AI Marketplacearrow-up-right для текущих тарифов.

Экономьте деньги:

  • Используйте Spot рынок для гибких рабочих нагрузок (часто на 30–50% дешевле)

  • Платите с помощью CLORE токенов

  • Сравнивайте цены у разных провайдеров

Дальнейшие шаги

  • LLaVA - Визуальный чат и вопросы-ответы

  • GroundingDINO - Нулевой-shot детекция

  • SAM2 - Сегментация обнаруженных объектов

Последнее обновление

Это было полезно?