Llama 3.2 Vision

Запускайте Meta Llama 3.2 Vision для понимания изображений на Clore.ai

Запустите мультимодальные модели Llama 3.2 Vision от Meta для понимания изображений на GPU CLORE.AI.

circle-check

Почему Llama 3.2 Vision?

  • Мультимодальная - Понимает текст и изображения

  • Несколько размеров - Версии с 11B и 90B параметров

  • Универсальный - OCR, визуальные вопросы-ответы, создание подписей к изображениям, анализ документов

  • Открытые веса - Полностью с открытым исходным кодом от Meta

  • Экосистема Llama - Совместима с Ollama, vLLM, transformers

Варианты моделей

Модель
Параметры
VRAM (FP16)
Контекст
Лучше всего для

Llama-3.2-11B-Vision

11B

24 ГБ

128K

Общее использование, один GPU

Llama-3.2-90B-Vision

90B

180 ГБ

128K

Максимальное качество

Llama-3.2-11B-Vision-Instruct

11B

24 ГБ

128K

Чат/ассистент

Llama-3.2-90B-Vision-Instruct

90B

180 ГБ

128K

Продакшен

Быстрое развертывание на CLORE.AI

Docker-образ:

Порты:

Команда:

Доступ к вашему сервису

После развертывания найдите ваш http_pub URL в Моих заказах:

  1. Перейдите на Моих заказах страницу

  2. Нажмите на ваш заказ

  3. Найдите http_pub URL (например, abc123.clorecloud.net)

Используйте https://YOUR_HTTP_PUB_URL вместо localhost в примерах ниже.

Требования к аппаратному обеспечению

Модель
Минимальная GPU
Рекомендуется
Оптимально

11B Vision

RTX 4090 24GB

A100 40GB

A100 80GB

90B Vision

4x A100 40GB

4x A100 80GB

8x H100

Установка

Использование Ollama (самый простой)

Использование vLLM

Использование Transformers

Базовое использование

Понимание изображений

С Ollama

С vLLM API

Сценарии использования

OCR / Извлечение текста

Анализ документов

Визуальное вопросо-ответ

Генерация подписей к изображениям

Код со скриншотов

Несколько изображений

Пакетная обработка

Интерфейс Gradio

Производительность

Задача
Модель
GPU
Время

Описание одного изображения

11B

RTX 4090

~3s

Описание одного изображения

11B

A100 40GB

~2s

OCR (1 страница)

11B

RTX 4090

~5 с

Анализ документа

11B

A100 40GB

~8s

Пакетная обработка (10 изображений)

11B

A100 40GB

~25с

Квантование

4-бит с bitsandbytes

GGUF с Ollama

Оценка стоимости

Типичные расценки на маркетплейсе CLORE.AI:

GPU
Почасовая ставка
Лучше всего для

RTX 4090 24GB

~$0.10

Модель 11B

A100 40GB

~$0.17

11B с длинным контекстом

A100 80GB

~$0.25

Оптимальная 11B

4x A100 80GB

~$1.00

Модель 90B

Цены варьируются. Проверьте CLORE.AI Marketplacearrow-up-right для текущих тарифов.

Экономьте деньги:

  • Используйте Spot заказы для пакетной обработки

  • Платите с помощью CLORE токенов

  • Используйте квантизированные модели (4-бит) для разработки

Устранение неполадок

Недостаточно памяти

Медленная генерация

  • Убедитесь, что используется GPU (проверьте nvidia-smi)

  • Используйте bfloat16 вместо float32

  • Уменьшите разрешение изображения перед обработкой

  • Используйте vLLM для лучшей пропускной способности

Изображение не загружается

Требуется токен HuggingFace

Llama Vision vs Другие

Функция
Llama 3.2 Vision
LLaVA 1.6
GPT-4V

Параметры

11B / 90B

7B / 34B

Неизвестно

С открытым исходным кодом

Да

Да

Нет

Качество OCR

Отлично

Хорошо

Отлично

Контекст

128K

32K

128K

Мульти-изображение

Да

Ограничено

Да

Лицензия

Llama 3.2

Apache 2.0

Проприетарный

Используйте Llama 3.2 Vision когда:

  • Нужен мультимодальный открытый исходный код

  • OCR и анализ документов

  • Интеграция с экосистемой Llama

  • Понимание длинного контекста

Дальнейшие шаги

  • LLaVA - Альтернативная модель зрения

  • Florence-2 - Визуальная модель от Microsoft

  • Ollama - Легкое развёртывание

  • vLLM - Продуктивный сервис

Последнее обновление

Это было полезно?