vLLM

Hochdurchsatz-LLM-Inferenz mit vLLM auf Clore.ai GPUs

Hochdurchsatz-LLM-Inferenzserver für Produktions-Workloads auf CLORE.AI-GPUs.

circle-check
circle-info

Aktuelle Version: v0.7.x — Dieser Leitfaden behandelt vLLM v0.7.3+. Neue Funktionen umfassen DeepSeek-R1-Unterstützung, strukturierte Ausgaben mit automatischer Werkzeugwahl, Multi-LoRA-Bereitstellung und verbesserte Speichereffizienz.

Serveranforderungen

Parameter
Minimum
Empfohlen

RAM

16GB

32GB+

VRAM

16GB (7B)

24GB+

Netzwerk

500Mbps

1Gbps+

Startzeit

5–15 Minuten

-

triangle-exclamation
circle-exclamation

Warum vLLM?

  • Höchster Durchsatz - PagedAttention für bis zu 24x höheren Durchsatz

  • Produktionsreif - OpenAI-kompatible API sofort einsatzbereit

  • Kontinuierliches Batching - Effizientes Serving für mehrere Benutzer

  • Streaming - Echtzeit-Token-Generierung

  • Multi-GPU - Tensorparallelismus für große Modelle

  • Multi-LoRA - Gleichzeitiges Bereitstellen mehrerer feinabgestimmter Adapter (v0.7+)

  • Strukturierte Ausgaben - JSON-Schema-Validierung und Tool-Calls (v0.7+)

Schnelle Bereitstellung auf CLORE.AI

Docker-Image:

Ports:

Befehl:

Überprüfen, ob es funktioniert

Nach der Bereitstellung finden Sie Ihre http_pub URL in Meine Bestellungen:

circle-exclamation

Zugriff auf Ihren Dienst

Bei Bereitstellung auf CLORE.AI greifen Sie auf vLLM über die http_pub URL:

circle-info

Alle localhost:8000 Die untenstehenden Beispiele funktionieren, wenn über SSH verbunden. Für externen Zugriff ersetzen Sie durch Ihre https://your-http-pub.clorecloud.net/ URL.

Installation

Verwendung von Docker (empfohlen)

Verwendung von pip

Unterstützte Modelle

Modell
Parameter
Benötigter VRAM
Benötigter RAM

Mistral 7B

7B

14GB

16GB+

Llama 3.1 8B

8B

16GB

16GB+

Llama 3.1 70B

70B

140GB (oder 2x80GB)

64GB+

Mixtral 8x7B

47B

90GB

32GB+

Qwen2.5 7B

7B

14GB

16GB+

Qwen2.5 72B

72B

145GB

64GB+

DeepSeek-V3

236B MoE

Multi-GPU

128GB+

DeepSeek-R1-Distill-Qwen-7B

7B

14GB

16GB+

DeepSeek-R1-Distill-Qwen-32B

32B

64GB

32GB+

DeepSeek-R1-Distill-Llama-70B

70B

140GB

64GB+

Phi-4

14B

28GB

32GB+

Gemma 2 9B

9B

18GB

16GB+

CodeLlama 34B

34B

68GB

32GB+

Serveroptionen

Basiser Server

Produktionsserver

Mit Quantisierung (geringerer VRAM)

Strukturierte Ausgaben und Tool-Calls (v0.7+)

Automatische Werkzeugwahl und strukturierte JSON-Ausgaben aktivieren:

Verwendung in Python:

Strukturierte JSON-Ausgabe via response_format:

Multi-LoRA-Serving (v0.7+)

Stellen Sie ein Basismodell mit mehreren LoRA-Adaptern gleichzeitig bereit:

Einen bestimmten LoRA-Adapter per Modellnamen abfragen:

DeepSeek-R1-Unterstützung (v0.7+)

vLLM v0.7+ hat native Unterstützung für DeepSeek-R1-Distillmodelle. Diese reasoning-Modelle erzeugen <think> Tags, die ihren Denkprozess anzeigen.

DeepSeek-R1-Distill-Qwen-7B (Single GPU)

DeepSeek-R1-Distill-Qwen-32B (Dual GPU)

DeepSeek-R1-Distill-Llama-70B (Quad GPU)

DeepSeek-R1 abfragen

Think-Tags parsen:

API-Nutzung

Chat-Completions (OpenAI-kompatibel)

Streaming

cURL

Textvervollständigungen

Vollständige API-Referenz

vLLM bietet OpenAI-kompatible Endpunkte plus zusätzliche Dienstendpunkte.

Standardendpunkte

Endpunkt
Methode
Beschreibung

/v1/models

GET

Verfügbare Modelle auflisten

/v1/chat/completions

POST

Chat-Vervollständigung

/v1/completions

POST

Textvervollständigung

/health

GET

Health-Check (kann leer zurückgeben)

Zusätzliche Endpunkte

Endpunkt
Methode
Beschreibung

/tokenize

POST

Text tokenisieren

/detokenize

POST

Tokens in Text umwandeln

/version

GET

vLLM-Version abrufen

/docs

GET

Swagger-UI-Dokumentation

/metrics

GET

Prometheus-Metriken

Text tokenisieren

Nützlich zum Zählen von Tokens vor dem Senden von Anfragen:

Antwort:

Detokenize

Token-IDs zurück in Text konvertieren:

Antwort:

Version abrufen

Antwort:

Swagger-Dokumentation

Öffnen Sie im Browser für interaktive API-Dokumentation:

Prometheus-Metriken

Zur Überwachung:

circle-info

Reasoning-Modelle: DeepSeek-R1 und ähnliche Modelle enthalten <think> Tags in Antworten, die den Denkprozess des Modells vor der finalen Antwort zeigen.

Benchmarks

Durchsatz (Tokens/Sek pro Benutzer)

Modell
RTX 3090
RTX 4090
A100 40GB
A100 80GB

Mistral 7B

100

170

210

230

Llama 3.1 8B

95

150

200

220

Llama 3.1 8B (AWQ)

130

190

260

280

Mixtral 8x7B

-

45

70

85

Llama 3.1 70B

-

-

25 (2x)

45 (2x)

DeepSeek-R1 7B

90

145

190

210

DeepSeek-R1 32B

-

-

40

70 (2x)

Benchmarks aktualisiert Januar 2026.

Kontextlänge vs. VRAM

Modell
4K Kontext
8K Kontext
16K Kontext
32K Kontext

8B FP16

18GB

22GB

30GB

46GB

8B AWQ

8GB

10GB

14GB

22GB

70B FP16

145GB

160GB

190GB

250GB

70B AWQ

42GB

50GB

66GB

98GB

Hugging Face Authentifizierung

Für gesperrte Modelle (Llama usw.):

Oder als Umgebungsvariable setzen:

GPU-Anforderungen

Modell
Min. VRAM
Min. RAM
Empfohlen

7-8B

16GB

16GB

24GB VRAM, 32GB RAM

13B

26GB

32GB

40GB VRAM

34B

70GB

32GB

80GB VRAM

70B

140GB

64GB

2x80GB

Kostenabschätzung

Typische CLORE.AI-Marktplatzpreise:

GPU
VRAM
Preis/Tag
Am besten geeignet für

RTX 3090

24GB

$0.30–1.00

7-8B-Modelle

RTX 4090

24GB

$0.50–2.00

7-13B, schnell

A100

40GB

$1.50–3.00

13-34B-Modelle

A100

80GB

$2.00–4.00

34-70B-Modelle

Preise in USD/Tag. Die Tarife variieren je nach Anbieter — prüfen Sie CLORE.AI Marketplacearrow-up-right auf aktuelle Preise.

Fehlerbehebung

HTTP 502 über lange Zeit

  1. Prüfe RAM: Server muss 16GB+ RAM haben

  2. Prüfe VRAM: Muss in das Modell passen

  3. Modell-Download: Beim ersten Lauf wird von HuggingFace heruntergeladen (5–15 Min)

  4. HF-Token: Gesperrte Modelle erfordern Authentifizierung

Kein Speicher mehr

Modell-Download schlägt fehl

vLLM vs Andere

Funktion
vLLM
llama.cpp
Ollama

Durchsatz

Am besten

Gut

Gut

VRAM-Nutzung

Hoch

Gering

Mittel

Benutzerfreundlichkeit

Mittel

Mittel

Einfach

Startzeit

5–15 min

1–2 Min

30 Sek.

Multi-GPU

Nativ

Begrenzt

Begrenzt

Tool-Aufrufe

Ja (v0.7+)

Begrenzt

Begrenzt

Multi-LoRA

Ja (v0.7+)

Nein

Nein

Verwenden Sie vLLM, wenn:

  • Hoher Durchsatz Priorität hat

  • Mehrere Benutzer bedient werden sollen

  • Genug VRAM und RAM vorhanden sind

  • Produktionsbereitstellung

  • Tool-Calls / strukturierte Ausgaben benötigt werden

Verwenden Sie Ollama, wenn:

  • Schnelle Einrichtung benötigt wird

  • Einzelner Benutzer

  • Weniger Ressourcen verfügbar sind

Nächste Schritte

Zuletzt aktualisiert

War das hilfreich?