Визуально-языковая модель Qwen2.5-VL
Запускайте Qwen2.5-VL, ведущую открытую vision-language модель, для понимания изображений/видео/документов на GPU Clore.ai.
Qwen2.5-VL от Alibaba (декабрь 2024) — лучшая открытая модель визуально-языковой обработки (VLM) по производительности при открытых весах. Доступна в вариантах с 3B, 7B и 72B параметрами, понимает изображения, кадры видео, PDF, диаграммы и сложные визуальные макеты. Вариант 7B — это золотая середина: он превосходит многие более крупные модели в бенчмарках и при этом комфортно работает на одной 24 ГБ GPU.
На Clore.ai вы можете арендовать именно ту GPU, которая вам нужна — от RTX 3090 для модели 7B до конфигураций с несколькими GPU для варианта 72B — и начать анализировать визуальный контент за считанные минуты.
Ключевые особенности
Мультимодальный ввод — изображения, видео, PDF, скриншоты, диаграммы и схемы в одной модели.
Три масштаба — 3B (edge/мобильный), 7B (производственная золотая середина), 72B (качество SOTA).
Динамическое разрешение — обрабатывает изображения в их родном разрешении; нет принудительного изменения размера до 224×224.
Понимание видео — принимает многокадровый видео ввод с временным рассуждением.
OCR для документов — извлекает текст из отсканированных документов, чеков и рукописных заметок.
Мультиязычность — высокая производительность на английском, китайском и более чем на 20 других языках.
Поддержка Ollama — запуск локально с
ollama run qwen2.5vl:7bдля развертывания без кода.Интеграция с Transformers —
Qwen2_5_VLForConditionalGenerationв HuggingFacetransformers.
Требования
VRAM GPU
8 ГБ
16–24 ГБ
80+ ГБ (несколько GPU)
ОЗУ системы
16 ГБ
32 ГБ
128 ГБ
Диск
10 ГБ
20 ГБ
150 ГБ
Python
3.10+
3.10+
3.10+
CUDA
12.1+
12.1+
12.1+
Рекомендация Clore.ai по GPU: Для модели 7B, RTX 4090 (24 ГБ, ~$0.5–2/день) или RTX 3090 (24 ГБ, ~$0.3–1/день) являются идеальными. Для 72B, отфильтруйте маркетплейс по A100 80 GB или конфигурациям с несколькими GPU.
Быстрый старт
Вариант A: Ollama (проще всего)
Затем в приглашении ollama:
Вариант B: Python / Transformers
Примеры использования
Понимание изображений с помощью Transformers
Анализ видео
OCR и извлечение из документов
Ollama API для пакетной обработки
Советы для пользователей Clore.ai
Ollama для быстрого развёртывания —
ollama run qwen2.5vl:7b— это самый быстрый путь к рабочей VLM. Для интерактивного использования Python код не требуется.7B — это золотая середина — вариант 7B Instruct помещается в 16 ГБ VRAM с 4-битной квантизацией и обеспечивает качество, сопоставимое с гораздо большими моделями.
Динамическое разрешение имеет значение — Qwen2.5-VL обрабатывает изображения в родном разрешении. Для больших изображений (>4K) уменьшите до максимальной ширины 1920px, чтобы избежать чрезмерного использования VRAM.
Настройка fps для видео — для ввода видео установите
fps=1.0чтобы отбирать 1 кадр в секунду. Более высокие значения быстро потребляют VRAM; 1 fps достаточно для большинства задач анализа.Постоянное хранилище — установите
HF_HOME=/workspace/hf_cache; модель 7B занимает ~15 ГБ. Для ollama модели размещаются в~/.ollama/models/.Структурированный вывод — Qwen2.5-VL хорошо следует инструкциям по форматированию JSON. Попросите «Вернуть в формате JSON», и вы получите парсируемый вывод большинство времени.
Сравнение нескольких изображений — вы можете передавать несколько изображений в одном сообщении для задач сравнения (например, «Какие из этих двух продуктов выглядят более премиально?»).
tmux — всегда запускайте внутри
tmuxна арендуемых Clore.ai GPU.
Устранение неполадок
OutOfMemoryError с 7B
Используйте load_in_4bit=True в from_pretrained() с bitsandbytes; или используйте вариант 3B
Модель Ollama не найдена
ollama pull qwen2.5vl:7b — убедитесь, что у вас правильный тег
Медленная обработка видео
Уменьшите fps до 0.5 и max_pixels до 256 * 256; меньше кадров = более быстрое инференс
Испорченный или пустой вывод
Увеличьте max_new_tokens; значение по умолчанию может быть слишком низким для подробных описаний
ImportError: qwen_vl_utils
pip install qwen-vl-utils — требуется для process_vision_info()
Модель 72B не помещается
Используйте 2× A100 80 GB с device_map="auto" или примените квантизацию AWQ
Путь к изображению не найден
Для локальных файлов в сообщениях используйте file:///absolute/path формат
Вывод на китайском при запросе на английском
Добавьте «Отвечайте только на английском.» в ваш запрос
Последнее обновление
Это было полезно?