Визуально-языковая модель Qwen2.5-VL

Запускайте Qwen2.5-VL, ведущую открытую vision-language модель, для понимания изображений/видео/документов на GPU Clore.ai.

Qwen2.5-VL от Alibaba (декабрь 2024) — лучшая открытая модель визуально-языковой обработки (VLM) по производительности при открытых весах. Доступна в вариантах с 3B, 7B и 72B параметрами, понимает изображения, кадры видео, PDF, диаграммы и сложные визуальные макеты. Вариант 7B — это золотая середина: он превосходит многие более крупные модели в бенчмарках и при этом комфортно работает на одной 24 ГБ GPU.

На Clore.aiarrow-up-right вы можете арендовать именно ту GPU, которая вам нужна — от RTX 3090 для модели 7B до конфигураций с несколькими GPU для варианта 72B — и начать анализировать визуальный контент за считанные минуты.

Ключевые особенности

  • Мультимодальный ввод — изображения, видео, PDF, скриншоты, диаграммы и схемы в одной модели.

  • Три масштаба — 3B (edge/мобильный), 7B (производственная золотая середина), 72B (качество SOTA).

  • Динамическое разрешение — обрабатывает изображения в их родном разрешении; нет принудительного изменения размера до 224×224.

  • Понимание видео — принимает многокадровый видео ввод с временным рассуждением.

  • OCR для документов — извлекает текст из отсканированных документов, чеков и рукописных заметок.

  • Мультиязычность — высокая производительность на английском, китайском и более чем на 20 других языках.

  • Поддержка Ollama — запуск локально с ollama run qwen2.5vl:7b для развертывания без кода.

  • Интеграция с TransformersQwen2_5_VLForConditionalGeneration в HuggingFace transformers.

Требования

Компонент
3B
7B
72B

VRAM GPU

8 ГБ

16–24 ГБ

80+ ГБ (несколько GPU)

ОЗУ системы

16 ГБ

32 ГБ

128 ГБ

Диск

10 ГБ

20 ГБ

150 ГБ

Python

3.10+

3.10+

3.10+

CUDA

12.1+

12.1+

12.1+

Рекомендация Clore.ai по GPU: Для модели 7B, RTX 4090 (24 ГБ, ~$0.5–2/день) или RTX 3090 (24 ГБ, ~$0.3–1/день) являются идеальными. Для 72B, отфильтруйте маркетплейс по A100 80 GB или конфигурациям с несколькими GPU.

Быстрый старт

Вариант A: Ollama (проще всего)

Затем в приглашении ollama:

Вариант B: Python / Transformers

Примеры использования

Понимание изображений с помощью Transformers

Анализ видео

OCR и извлечение из документов

Ollama API для пакетной обработки

Советы для пользователей Clore.ai

  1. Ollama для быстрого развёртыванияollama run qwen2.5vl:7b — это самый быстрый путь к рабочей VLM. Для интерактивного использования Python код не требуется.

  2. 7B — это золотая середина — вариант 7B Instruct помещается в 16 ГБ VRAM с 4-битной квантизацией и обеспечивает качество, сопоставимое с гораздо большими моделями.

  3. Динамическое разрешение имеет значение — Qwen2.5-VL обрабатывает изображения в родном разрешении. Для больших изображений (>4K) уменьшите до максимальной ширины 1920px, чтобы избежать чрезмерного использования VRAM.

  4. Настройка fps для видео — для ввода видео установите fps=1.0 чтобы отбирать 1 кадр в секунду. Более высокие значения быстро потребляют VRAM; 1 fps достаточно для большинства задач анализа.

  5. Постоянное хранилище — установите HF_HOME=/workspace/hf_cache; модель 7B занимает ~15 ГБ. Для ollama модели размещаются в ~/.ollama/models/.

  6. Структурированный вывод — Qwen2.5-VL хорошо следует инструкциям по форматированию JSON. Попросите «Вернуть в формате JSON», и вы получите парсируемый вывод большинство времени.

  7. Сравнение нескольких изображений — вы можете передавать несколько изображений в одном сообщении для задач сравнения (например, «Какие из этих двух продуктов выглядят более премиально?»).

  8. tmux — всегда запускайте внутри tmux на арендуемых Clore.ai GPU.

Устранение неполадок

Проблема
Исправить

OutOfMemoryError с 7B

Используйте load_in_4bit=True в from_pretrained() с bitsandbytes; или используйте вариант 3B

Модель Ollama не найдена

ollama pull qwen2.5vl:7b — убедитесь, что у вас правильный тег

Медленная обработка видео

Уменьшите fps до 0.5 и max_pixels до 256 * 256; меньше кадров = более быстрое инференс

Испорченный или пустой вывод

Увеличьте max_new_tokens; значение по умолчанию может быть слишком низким для подробных описаний

ImportError: qwen_vl_utils

pip install qwen-vl-utils — требуется для process_vision_info()

Модель 72B не помещается

Используйте 2× A100 80 GB с device_map="auto" или примените квантизацию AWQ

Путь к изображению не найден

Для локальных файлов в сообщениях используйте file:///absolute/path формат

Вывод на китайском при запросе на английском

Добавьте «Отвечайте только на английском.» в ваш запрос

Последнее обновление

Это было полезно?