Modelo Visión-Lenguaje Qwen2.5-VL
Ejecuta Qwen2.5-VL, el principal modelo abierto visión-lenguaje, para comprensión de imágenes/videos/documentos en GPUs de Clore.ai.
Qwen2.5-VL de Alibaba (diciembre de 2024) es el modelo visión-texto (VLM) de peso abierto con mejor rendimiento. Disponible en tamaños de 3B, 7B y 72B de parámetros, entiende imágenes, fotogramas de video, PDFs, gráficos y diseños visuales complejos. La variante de 7B encuentra el punto óptimo: supera a muchos modelos más grandes en benchmarks mientras funciona cómodamente en una sola GPU de 24 GB.
En Clore.ai puedes alquilar la GPU exacta que necesitas — desde una RTX 3090 para el modelo 7B hasta configuraciones multi-GPU para la variante de 72B — y comenzar a analizar contenido visual en minutos.
Características clave
Entrada multimodal — imágenes, video, PDFs, capturas de pantalla, gráficos y diagramas en un único modelo.
Tres escalas — 3B (edge/móvil), 7B (punto óptimo para producción), 72B (calidad SOTA).
Resolución dinámica — procesa imágenes en su resolución nativa; sin forzar redimensionamiento a 224×224.
Comprensión de video — acepta entrada de video con múltiples fotogramas y razonamiento temporal.
OCR de documentos — extrae texto de documentos escaneados, recibos y notas manuscritas.
Multilingüe — rendimiento sólido en inglés, chino y más de 20 idiomas adicionales.
Soporte Ollama — ejecútalo localmente con
ollama run qwen2.5vl:7bpara despliegue sin código.Integración con Transformers —
Qwen2_5_VLForConditionalGenerationen HuggingFacetransformers.
Requisitos
VRAM de GPU
8 GB
16–24 GB
80+ GB (multi-GPU)
RAM del sistema
16 GB
32 GB
128 GB
Disco
10 GB
20 GB
150 GB
Python
3.10+
3.10+
3.10+
CUDA
12.1+
12.1+
12.1+
Recomendación de GPU de Clore.ai: Para el modelo 7B, un RTX 4090 (24 GB, ~0,5–2 $/día) o RTX 3090 (24 GB, ~0,3–1 $/día) es ideal. Para 72B, filtra el mercado por A100 80 GB o configuraciones multi-GPU.
Inicio rápido
Opción A: Ollama (La más simple)
Luego en el prompt de ollama:
Opción B: Python / Transformers
Ejemplos de uso
Comprensión de imágenes con Transformers
Análisis de video
OCR y extracción de documentos
API de Ollama para procesamiento por lotes
Consejos para usuarios de Clore.ai
Ollama para despliegue rápido —
ollama run qwen2.5vl:7bes la vía más rápida hacia un VLM funcionando. No se necesita código Python para uso interactivo.7B es el punto óptimo — la variante 7B Instruct cabe en 16 GB de VRAM con cuantización a 4 bits y ofrece una calidad competitiva con modelos mucho más grandes.
La resolución dinámica importa — Qwen2.5-VL procesa imágenes en resolución nativa. Para imágenes grandes (>4K), redimensiona a un ancho máximo de 1920 px para evitar uso excesivo de VRAM.
Configuración de fps de video — para entrada de video, establece
fps=1.0para muestrear 1 fotograma por segundo. Valores más altos consumen VRAM rápidamente; 1 fps es suficiente para la mayoría de las tareas de análisis.Almacenamiento persistente — establece
HF_HOME=/workspace/hf_cache; el modelo 7B ocupa ~15 GB. Para ollama, los modelos se ubican en~/.ollama/models/.Salida estructurada — Qwen2.5-VL sigue bien las instrucciones de formato JSON. Pide "Devolver como JSON" y obtendrás una salida parseable la mayoría de las veces.
Comparación de múltiples imágenes — puedes pasar varias imágenes en un solo mensaje para tareas de comparación (por ejemplo, "¿Cuál de estos dos productos parece más premium?").
tmux — siempre ejecútalo dentro de
tmuxen los alquileres de Clore.ai.
Solución de problemas
OutOfMemoryError con 7B
Usa load_in_4bit=True en from_pretrained() con bitsandbytes; o usa la variante 3B
Modelo de Ollama no encontrado
ollama pull qwen2.5vl:7b — asegúrate de tener la etiqueta correcta
Procesamiento de video lento
Reducir fps a 0.5 y max_pixels a 256 * 256; menos fotogramas = inferencia más rápida
Salida garbled o vacía
Aumenta max_new_tokens; el valor por defecto puede ser demasiado bajo para descripciones detalladas
ImportError: qwen_vl_utils
pip install qwen-vl-utils — requerido para process_vision_info()
El modelo 72B no cabe
Usa 2× A100 80 GB con device_map="auto" o aplica cuantización AWQ
Ruta de imagen no encontrada
Para archivos locales en mensajes, usa file:///absolute/path formato
Chino en la salida al solicitar en inglés
Agrega "Responde solo en inglés." a tu prompt
Última actualización
¿Te fue útil?