Modelo Visión-Lenguaje Qwen2.5-VL

Ejecuta Qwen2.5-VL, el principal modelo abierto visión-lenguaje, para comprensión de imágenes/videos/documentos en GPUs de Clore.ai.

Qwen2.5-VL de Alibaba (diciembre de 2024) es el modelo visión-texto (VLM) de peso abierto con mejor rendimiento. Disponible en tamaños de 3B, 7B y 72B de parámetros, entiende imágenes, fotogramas de video, PDFs, gráficos y diseños visuales complejos. La variante de 7B encuentra el punto óptimo: supera a muchos modelos más grandes en benchmarks mientras funciona cómodamente en una sola GPU de 24 GB.

En Clore.aiarrow-up-right puedes alquilar la GPU exacta que necesitas — desde una RTX 3090 para el modelo 7B hasta configuraciones multi-GPU para la variante de 72B — y comenzar a analizar contenido visual en minutos.

Características clave

  • Entrada multimodal — imágenes, video, PDFs, capturas de pantalla, gráficos y diagramas en un único modelo.

  • Tres escalas — 3B (edge/móvil), 7B (punto óptimo para producción), 72B (calidad SOTA).

  • Resolución dinámica — procesa imágenes en su resolución nativa; sin forzar redimensionamiento a 224×224.

  • Comprensión de video — acepta entrada de video con múltiples fotogramas y razonamiento temporal.

  • OCR de documentos — extrae texto de documentos escaneados, recibos y notas manuscritas.

  • Multilingüe — rendimiento sólido en inglés, chino y más de 20 idiomas adicionales.

  • Soporte Ollama — ejecútalo localmente con ollama run qwen2.5vl:7b para despliegue sin código.

  • Integración con TransformersQwen2_5_VLForConditionalGeneration en HuggingFace transformers.

Requisitos

Componente
3B
7B
72B

VRAM de GPU

8 GB

16–24 GB

80+ GB (multi-GPU)

RAM del sistema

16 GB

32 GB

128 GB

Disco

10 GB

20 GB

150 GB

Python

3.10+

3.10+

3.10+

CUDA

12.1+

12.1+

12.1+

Recomendación de GPU de Clore.ai: Para el modelo 7B, un RTX 4090 (24 GB, ~0,5–2 $/día) o RTX 3090 (24 GB, ~0,3–1 $/día) es ideal. Para 72B, filtra el mercado por A100 80 GB o configuraciones multi-GPU.

Inicio rápido

Opción A: Ollama (La más simple)

Luego en el prompt de ollama:

Opción B: Python / Transformers

Ejemplos de uso

Comprensión de imágenes con Transformers

Análisis de video

OCR y extracción de documentos

API de Ollama para procesamiento por lotes

Consejos para usuarios de Clore.ai

  1. Ollama para despliegue rápidoollama run qwen2.5vl:7b es la vía más rápida hacia un VLM funcionando. No se necesita código Python para uso interactivo.

  2. 7B es el punto óptimo — la variante 7B Instruct cabe en 16 GB de VRAM con cuantización a 4 bits y ofrece una calidad competitiva con modelos mucho más grandes.

  3. La resolución dinámica importa — Qwen2.5-VL procesa imágenes en resolución nativa. Para imágenes grandes (>4K), redimensiona a un ancho máximo de 1920 px para evitar uso excesivo de VRAM.

  4. Configuración de fps de video — para entrada de video, establece fps=1.0 para muestrear 1 fotograma por segundo. Valores más altos consumen VRAM rápidamente; 1 fps es suficiente para la mayoría de las tareas de análisis.

  5. Almacenamiento persistente — establece HF_HOME=/workspace/hf_cache; el modelo 7B ocupa ~15 GB. Para ollama, los modelos se ubican en ~/.ollama/models/.

  6. Salida estructurada — Qwen2.5-VL sigue bien las instrucciones de formato JSON. Pide "Devolver como JSON" y obtendrás una salida parseable la mayoría de las veces.

  7. Comparación de múltiples imágenes — puedes pasar varias imágenes en un solo mensaje para tareas de comparación (por ejemplo, "¿Cuál de estos dos productos parece más premium?").

  8. tmux — siempre ejecútalo dentro de tmux en los alquileres de Clore.ai.

Solución de problemas

Problema
Solucionar

OutOfMemoryError con 7B

Usa load_in_4bit=True en from_pretrained() con bitsandbytes; o usa la variante 3B

Modelo de Ollama no encontrado

ollama pull qwen2.5vl:7b — asegúrate de tener la etiqueta correcta

Procesamiento de video lento

Reducir fps a 0.5 y max_pixels a 256 * 256; menos fotogramas = inferencia más rápida

Salida garbled o vacía

Aumenta max_new_tokens; el valor por defecto puede ser demasiado bajo para descripciones detalladas

ImportError: qwen_vl_utils

pip install qwen-vl-utils — requerido para process_vision_info()

El modelo 72B no cabe

Usa 2× A100 80 GB con device_map="auto" o aplica cuantización AWQ

Ruta de imagen no encontrada

Para archivos locales en mensajes, usa file:///absolute/path formato

Chino en la salida al solicitar en inglés

Agrega "Responde solo en inglés." a tu prompt

Última actualización

¿Te fue útil?