Qwen2.5-VL Vision-Language-Modell
Führen Sie Qwen2.5-VL aus, das führende offene Vision-Language-Modell, zur Bild-/Video-/Dokumentenverstehung auf Clore.ai GPUs.
Qwen2.5-VL von Alibaba (Dezember 2024) ist das leistungsstärkste offene Vision-Language-Modell (VLM) in seiner Gewichtsklasse. Erhältlich in 3B-, 7B- und 72B-Parametergrößen, versteht es Bilder, Videoframes, PDFs, Diagramme und komplexe visuelle Layouts. Die 7B-Variante trifft den Sweet Spot — sie übertrifft viele größere Modelle in Benchmarks und läuft bequem auf einer einzelnen 24-GB-GPU.
An Clore.ai können Sie genau die GPU mieten, die Sie benötigen — von einer RTX 3090 für das 7B-Modell bis hin zu Multi-GPU-Setups für die 72B-Variante — und in wenigen Minuten mit der Analyse visueller Inhalte beginnen.
Hauptmerkmale
Multimodale Eingabe — Bilder, Videos, PDFs, Screenshots, Diagramme und Schaubilder in einem einzigen Modell.
Drei Skalen — 3B (Edge/Mobil), 7B (Produktions-Sweet-Spot), 72B (SOTA-Qualität).
Dynamische Auflösung — verarbeitet Bilder in ihrer nativen Auflösung; kein erzwungenes Skalieren auf 224×224.
Videoverstehen — akzeptiert mehrbildige Videoeingaben mit zeitlicher Argumentation.
Dokumenten-OCR — extrahiert Text aus gescannten Dokumenten, Quittungen und handschriftlichen Notizen.
Mehrsprachig — starke Leistung in Englisch, Chinesisch und über 20 weiteren Sprachen.
Ollama-Unterstützung — lokal ausführen mit
ollama run qwen2.5vl:7bfür eine bereitzustellung ohne Code.Transformers-Integration —
Qwen2_5_VLForConditionalGenerationin HuggingFacetransformers.
Anforderungen
GPU-VRAM
8 GB
16–24 GB
80+ GB (Multi-GPU)
System-RAM
16 GB
32 GB
128 GB
Festplatte
10 GB
20 GB
150 GB
Python
3.10+
3.10+
3.10+
CUDA
12.1+
12.1+
12.1+
Clore.ai GPU-Empfehlung: Für das 7B-Modell, ein RTX 4090 (24 GB, ~0,5–2 $/Tag) oder RTX 3090 (24 GB, ~0,3–1 $/Tag) ist ideal. Für 72B, filtern Sie den Marktplatz nach A100 80 GB oder Multi-GPU-Setups.
Schnellstart
Option A: Ollama (Einfachste)
Dann im ollama-Prompt:
Option B: Python / Transformers
Beispielanwendungen
Bildverständnis mit Transformers
Videoanalyse
Dokumenten-OCR und Extraktion
Ollama-API für Batch-Verarbeitung
Tipps für Clore.ai-Nutzer
Ollama für schnelle Bereitstellung —
ollama run qwen2.5vl:7bist der schnellste Weg zu einem funktionierenden VLM. Keine Python-Code nötig für interaktive Nutzung.7B ist der Sweet Spot — die 7B Instruct-Variante passt mit 4-Bit-Quantisierung in 16 GB VRAM und liefert eine Qualität, die mit deutlich größeren Modellen konkurriert.
Dynamische Auflösung ist wichtig — Qwen2.5-VL verarbeitet Bilder in nativer Auflösung. Bei großen Bildern (>4K) auf maximal 1920px Breite verkleinern, um übermäßigen VRAM-Verbrauch zu vermeiden.
Video-fps-Einstellung — für Videoeingaben setze
fps=1.0um 1 Frame pro Sekunde zu sampeln. Höhere Werte verbrauchen schnell VRAM; 1 fps reicht für die meisten Analyseaufgaben aus.Persistenter Speicher — setze
HF_HOME=/workspace/hf_cache; das 7B-Modell ist ~15 GB. Bei ollama landen Modelle in~/.ollama/models/.Strukturierte Ausgabe — Qwen2.5-VL befolgt JSON-Formatierungsanweisungen gut. Fordere "Als JSON zurückgeben" an und du erhältst die meiste Zeit parsefähige Ausgaben.
Mehrfachbild-Vergleich — du kannst mehrere Bilder in einer einzigen Nachricht übergeben für Vergleichsaufgaben (z. B. "Welches dieser beiden Produkte wirkt hochwertiger?").
tmux — führe es immer innerhalb von
tmuxbei Clore.ai-Mietinstanzen aus.
Fehlerbehebung
OutOfMemoryError mit 7B
Verwenden Sie load_in_4bit=True in from_pretrained() mit bitsandbytes; oder verwende die 3B-Variante
Ollama-Modell nicht gefunden
ollama pull qwen2.5vl:7b — stelle sicher, dass du das richtige Tag hast
Langsame Videoverarbeitung
Reduzieren fps auf 0,5 und max_pixels auf 256 * 256; weniger Frames = schnellere Inferenz
Wirre oder leere Ausgabe
Erhöhe max_new_tokens; der Standardwert kann für detaillierte Beschreibungen zu niedrig sein
ImportError: qwen_vl_utils
pip install qwen-vl-utils — erforderlich für process_vision_info()
72B-Modell passt nicht
Verwende 2× A100 80 GB mit device_map="auto" oder wende AWQ-Quantisierung an
Bildpfad nicht gefunden
Für lokale Dateien in Nachrichten verwende file:///absolute/path Format
Chinesisch in der Ausgabe bei Aufforderung auf Englisch
Füge "Nur auf Englisch antworten." zu deinem Prompt hinzu
Zuletzt aktualisiert
War das hilfreich?