LLaVA

Chatten Sie mit Bildern mithilfe des LLaVA Vision-Language-Modells auf Clore.ai

Chatten mit Bildern mithilfe von LLaVA – der Open-Source-Alternative zu GPT-4V.

circle-check

Mieten auf CLORE.AI

  1. Nach GPU-Typ, VRAM und Preis filtern

  2. Wählen On-Demand (Festpreis) oder Spot (Gebotspreis)

  3. Konfigurieren Sie Ihre Bestellung:

    • Docker-Image auswählen

    • Ports festlegen (TCP für SSH, HTTP für Web-UIs)

    • Umgebungsvariablen bei Bedarf hinzufügen

    • Startbefehl eingeben

  4. Zahlung auswählen: CLORE, BTC, oder USDT/USDC

  5. Bestellung erstellen und auf Bereitstellung warten

Zugriff auf Ihren Server

  • Verbindungsdetails finden Sie in Meine Bestellungen

  • Webschnittstellen: Verwenden Sie die HTTP-Port-URL

  • SSH: ssh -p <port> root@<proxy-address>

Was ist LLaVA?

LLaVA (Large Language and Vision Assistant) kann:

  • Bilder verstehen und beschreiben

  • Fragen zu visuellen Inhalten beantworten

  • Diagramme, Grafiken und Screenshots analysieren

  • OCR und Dokumentenverständnis

Modellvarianten

Modell
Größe
VRAM
Qualität

LLaVA-1.5-7B

7B

8GB

Gut

LLaVA-1.5-13B

13B

16GB

Besser

LLaVA-1.6-34B

34B

40GB

Am besten

LLaVA-NeXT

7-34B

8-40GB

Neueste

Schnelle Bereitstellung

Docker-Image:

Ports:

Befehl:

Zugriff auf Ihren Dienst

Nach der Bereitstellung finden Sie Ihre http_pub URL in Meine Bestellungen:

  1. Gehen Sie zur Meine Bestellungen Seite

  2. Klicken Sie auf Ihre Bestellung

  3. Finden Sie die http_pub URL (z. B., abc123.clorecloud.net)

Verwenden Sie https://IHRE_HTTP_PUB_URL anstelle von localhost in den Beispielen unten.

Installation

Grundlegende Verwendung

Python-API

Verwendung von Transformers

Ollama-Integration (empfohlen)

Der einfachste Weg, LLaVA auf CLORE.AI auszuführen:

LLaVA-API über Ollama

circle-exclamation

Funktionsweise: /api/generate

Antwort:

NICHT funktionierend: /api/chat (gibt für Vision null zurück)

Python mit Ollama

Vollständiges funktionierendes Beispiel

Anwendungsfälle

Bildbeschreibung

OCR / Textextraktion

Diagrammanalyse

Code aus Screenshot

Objekterkennung

Gradio-Oberfläche

API-Server

Batch-Verarbeitung

Speicheroptimierung

4-Bit-Quantisierung

CPU-Auslagerung

Leistung

Modell
GPU
Tokens/sec

LLaVA-1.5-7B

RTX 3090

~30

LLaVA-1.5-7B

RTX 4090

~45

LLaVA-1.6-7B

RTX 4090

~40

LLaVA-1.5-13B

A100

~35

Fehlerbehebung

Kein Speicher mehr

Langsame Generierung

  • Verwende Flash-Attention

  • Reduziere max_new_tokens

  • Verwende quantisiertes Modell

Schlechte Qualität

  • Verwende ein größeres Modell

  • Bessere Prompts mit Kontext

  • Höhere Auflösung der Bilder

Kostenabschätzung

Typische CLORE.AI-Marktplatztarife (Stand 2024):

GPU
Stundensatz
Tagessatz
4-Stunden-Sitzung

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Preise variieren je nach Anbieter und Nachfrage. Prüfen Sie CLORE.AI Marketplacearrow-up-right auf aktuelle Preise.

Geld sparen:

  • Verwenden Sie Spot Markt für flexible Workloads (oft 30–50% günstiger)

  • Bezahlen mit CLORE Token

  • Preise bei verschiedenen Anbietern vergleichen

Nächste Schritte

  • Ollama-LLMs – LLaVA mit Ollama ausführen

  • RAG + LangChain - Vision + RAG

  • vLLM-Inferenz - Produktionseinsatz

Zuletzt aktualisiert

War das hilfreich?