Modèle vision-langage Qwen2.5-VL
Exécutez Qwen2.5-VL, le principal modèle vision-langage open, pour la compréhension d'images/vidéos/documents sur les GPU Clore.ai.
Qwen2.5-VL d'Alibaba (décembre 2024) est le modèle vision-langage (VLM) open-weight le plus performant. Disponible en tailles 3B, 7B et 72B de paramètres, il comprend les images, les images vidéo, les PDF, les graphiques et les mises en page visuelles complexes. La variante 7B représente le meilleur compromis — elle surpasse de nombreux modèles plus grands sur les benchmarks tout en fonctionnant confortablement sur un seul GPU de 24 Go.
Sur Clore.ai vous pouvez louer le GPU exact dont vous avez besoin — d'une RTX 3090 pour le modèle 7B aux configurations multi-GPU pour la variante 72B — et commencer à analyser du contenu visuel en quelques minutes.
Principales caractéristiques
Entrée multimodale — images, vidéo, PDF, captures d'écran, graphiques et schémas dans un seul modèle.
Trois tailles — 3B (edge/mobile), 7B (point idéal pour la production), 72B (qualité SOTA).
Résolution dynamique — traite les images à leur résolution native ; pas de redimensionnement forcé en 224×224.
Compréhension vidéo — accepte des vidéos multi-images avec raisonnement temporel.
OCR de documents — extrait le texte des documents numérisés, des reçus et des notes manuscrites.
Multilingue — bonnes performances en anglais, chinois et plus de 20 autres langues.
Support Ollama — exécutez localement avec
ollama run qwen2.5vl:7bpour un déploiement sans code.Intégration Transformers —
Qwen2_5_VLForConditionalGenerationdans HuggingFacetransformers.
Exigences
VRAM GPU
8 Go
16–24 Go
80+ Go (multi-GPU)
RAM système
16 Go
32 Go
128 Go
Disque
10 Go
20 Go
150 Go
Python
3.10+
3.10+
3.10+
CUDA
12.1+
12.1+
12.1+
Recommandation GPU Clore.ai : Pour le modèle 7B, un RTX 4090 (24 Go, ~0,5–2 $/jour) ou RTX 3090 (24 Go, ~0,3–1 $/jour) est idéal. Pour 72B, filtrez la place de marché pour A100 80 Go ou des configurations multi-GPU.
Démarrage rapide
Option A : Ollama (la plus simple)
Puis dans l'invite ollama :
Option B : Python / Transformers
Exemples d'utilisation
Compréhension d'image avec Transformers
Analyse vidéo
OCR et extraction de documents
API Ollama pour le traitement par lots
Conseils pour les utilisateurs de Clore.ai
Ollama pour un déploiement rapide —
ollama run qwen2.5vl:7best le chemin le plus rapide vers un VLM opérationnel. Aucun code Python requis pour une utilisation interactive.7B est le point idéal — la variante 7B Instruct tient dans 16 Go de VRAM avec quantification 4 bits et offre une qualité concurrente de modèles beaucoup plus grands.
La résolution dynamique est importante — Qwen2.5-VL traite les images à la résolution native. Pour les grandes images (>4K), redimensionnez à une largeur maximale de 1920 px pour éviter une utilisation excessive de la VRAM.
Paramètre fps vidéo — pour l'entrée vidéo, définissez
fps=1.0pour échantillonner 1 image par seconde. Des valeurs plus élevées consomment rapidement la VRAM ; 1 fps suffit pour la plupart des tâches d'analyse.Stockage persistant — définissez
HF_HOME=/workspace/hf_cache; le modèle 7B fait ~15 Go. Pour ollama, les modèles vont dans~/.ollama/models/.Sortie structurée — Qwen2.5-VL suit bien les instructions de formatage JSON. Demandez « Retourner au format JSON » et vous obtiendrez une sortie analysable la plupart du temps.
Comparaison multi-images — vous pouvez passer plusieurs images dans un seul message pour des tâches de comparaison (par ex. « Lequel de ces deux produits a l'air le plus premium ? »).
tmux — exécutez toujours à l'intérieur de
tmuxsur les locations Clore.ai.
Dépannage
OutOfMemoryError avec 7B
Utilisez load_in_4bit=True dans from_pretrained() avec bitsandbytes; ou utilisez la variante 3B
Modèle Ollama introuvable
ollama pull qwen2.5vl:7b — assurez-vous d'avoir le bon tag
Traitement vidéo lent
Réduire fps à 0,5 et max_pixels à 256 * 256; moins d'images = inférence plus rapide
Sortie brouillée ou vide
Augmentez max_new_tokens; la valeur par défaut peut être trop basse pour des descriptions détaillées
ImportError : qwen_vl_utils
pip install qwen-vl-utils — requis pour process_vision_info()
Le modèle 72B ne tient pas
Utilisez 2× A100 80 Go avec device_map="auto" ou appliquez la quantification AWQ
Chemin de l'image introuvable
Pour les fichiers locaux dans les messages, utilisez file:///chemin/absolu format
Chinois dans la sortie lors d'un prompt en anglais
Ajoutez « Répondez uniquement en anglais. » à votre prompt
Mis à jour
Ce contenu vous a-t-il été utile ?