Llama 3.2 Vision

Führen Sie Metas Llama 3.2 Vision zur Bildverständnis auf Clore.ai aus

Führen Sie Metas multimodale Llama 3.2 Vision-Modelle zur Bildverarbeitung auf CLORE.AI-GPUs aus.

circle-check

Warum Llama 3.2 Vision?

  • Multimodal - Versteht sowohl Text als auch Bilder

  • Mehrere Größen - Versionen mit 11B und 90B Parametern

  • Vielseitig - OCR, visuelle Fragenbeantwortung, Bildunterschriftenerstellung, Dokumentenanalyse

  • Offene Gewichte - Vollständig Open Source von Meta

  • Llama-Ökosystem - Kompatibel mit Ollama, vLLM, transformers

Modellvarianten

Modell
Parameter
VRAM (FP16)
Kontext
Am besten geeignet für

Llama-3.2-11B-Vision

11B

24GB

128K

Allgemeiner Gebrauch, einzelne GPU

Llama-3.2-90B-Vision

90B

180GB

128K

Maximale Qualität

Llama-3.2-11B-Vision-Instruct

11B

24GB

128K

Chat/Assistent

Llama-3.2-90B-Vision-Instruct

90B

180GB

128K

Produktion

Schnelle Bereitstellung auf CLORE.AI

Docker-Image:

Ports:

Befehl:

Zugriff auf Ihren Dienst

Nach der Bereitstellung finden Sie Ihre http_pub URL in Meine Bestellungen:

  1. Gehen Sie zur Meine Bestellungen Seite

  2. Klicken Sie auf Ihre Bestellung

  3. Finden Sie die http_pub URL (z. B., abc123.clorecloud.net)

Verwenden Sie https://IHRE_HTTP_PUB_URL anstelle von localhost in den Beispielen unten.

Hardware-Anforderungen

Modell
Minimale GPU
Empfohlen
Optimal

11B Vision

RTX 4090 24GB

A100 40GB

A100 80GB

90B Vision

4x A100 40GB

4x A100 80GB

8x H100

Installation

Mit Ollama (am einfachsten)

Mit vLLM

Verwendung von Transformers

Grundlegende Verwendung

Bildverstehen

Mit Ollama

Mit vLLM API

Anwendungsfälle

OCR / Textextraktion

Dokumentenanalyse

Visuelle Fragenbeantwortung

Bildbeschriftung

Code aus Screenshots

Mehrere Bilder

Batch-Verarbeitung

Gradio-Oberfläche

Leistung

Aufgabe
Modell
GPU
Zeit

Beschreibung eines einzelnen Bildes

11B

RTX 4090

~3s

Beschreibung eines einzelnen Bildes

11B

A100 40GB

~2s

OCR (1 Seite)

11B

RTX 4090

~5s

Dokumentenanalyse

11B

A100 40GB

~8s

Batch (10 Bilder)

11B

A100 40GB

~25s

Quantisierung

4-Bit mit bitsandbytes

GGUF mit Ollama

Kostenabschätzung

Typische CLORE.AI-Marktplatzpreise:

GPU
Stundensatz
Am besten geeignet für

RTX 4090 24GB

~$0.10

11B-Modell

A100 40GB

~$0.17

11B mit langem Kontext

A100 80GB

~$0.25

11B optimal

4x A100 80GB

~$1.00

90B-Modell

Preise variieren. Prüfe CLORE.AI Marketplacearrow-up-right auf aktuelle Preise.

Geld sparen:

  • Verwenden Sie Spot Aufträge für die Batch-Verarbeitung

  • Bezahlen mit CLORE Token

  • Verwenden Sie quantisierte Modelle (4-Bit) für die Entwicklung

Fehlerbehebung

Kein Speicher mehr

Langsame Generierung

  • Stellen Sie sicher, dass die GPU verwendet wird (prüfen nvidia-smi)

  • Verwenden Sie bfloat16 anstelle von float32

  • Reduzieren Sie die Bildauflösung vor der Verarbeitung

  • Verwenden Sie vLLM für besseren Durchsatz

Bild lädt nicht

HuggingFace-Token erforderlich

Llama Vision vs. Andere

Funktion
Llama 3.2 Vision
LLaVA 1.6
GPT-4V

Parameter

11B / 90B

7B / 34B

Unbekannt

Open Source

Ja

Ja

Nein

OCR-Qualität

Ausgezeichnet

Gut

Ausgezeichnet

Kontext

128K

32K

128K

Mehrere Bilder

Ja

Begrenzt

Ja

Lizenz

Llama 3.2

Apache 2.0

Proprietär

Verwenden Sie Llama 3.2 Vision, wenn:

  • Ein Open-Source-multimodales Modell benötigt wird

  • OCR und Dokumentenanalyse

  • Integration mit dem Llama-Ökosystem

  • Verständnis langer Kontexte

Nächste Schritte

  • LLaVA - Alternativs Vision-Modell

  • Florence-2 - Microsofts Vision-Modell

  • Ollama - Einfache Bereitstellung

  • vLLM - Produktionsbereitstellung

Zuletzt aktualisiert

War das hilfreich?