vLLM
Hochdurchsatz-LLM-Inferenz mit vLLM auf Clore.ai GPUs
Serveranforderungen
Parameter
Minimum
Empfohlen
Warum vLLM?
Schnelle Bereitstellung auf CLORE.AI
Überprüfen, ob es funktioniert
Zugriff auf Ihren Dienst
Installation
Verwendung von Docker (empfohlen)
Verwendung von pip
Unterstützte Modelle
Modell
Parameter
Benötigter VRAM
Benötigter RAM
Serveroptionen
Basiser Server
Produktionsserver
Mit Quantisierung (geringerer VRAM)
Strukturierte Ausgaben und Tool-Calls (v0.7+)
Multi-LoRA-Serving (v0.7+)
DeepSeek-R1-Unterstützung (v0.7+)
DeepSeek-R1-Distill-Qwen-7B (Single GPU)
DeepSeek-R1-Distill-Qwen-32B (Dual GPU)
DeepSeek-R1-Distill-Llama-70B (Quad GPU)
DeepSeek-R1 abfragen
API-Nutzung
Chat-Completions (OpenAI-kompatibel)
Streaming
cURL
Textvervollständigungen
Vollständige API-Referenz
Standardendpunkte
Endpunkt
Methode
Beschreibung
Zusätzliche Endpunkte
Endpunkt
Methode
Beschreibung
Text tokenisieren
Detokenize
Version abrufen
Swagger-Dokumentation
Prometheus-Metriken
Benchmarks
Durchsatz (Tokens/Sek pro Benutzer)
Modell
RTX 3090
RTX 4090
A100 40GB
A100 80GB
Kontextlänge vs. VRAM
Modell
4K Kontext
8K Kontext
16K Kontext
32K Kontext
Hugging Face Authentifizierung
GPU-Anforderungen
Modell
Min. VRAM
Min. RAM
Empfohlen
Kostenabschätzung
GPU
VRAM
Preis/Tag
Am besten geeignet für
Fehlerbehebung
HTTP 502 über lange Zeit
Kein Speicher mehr
Modell-Download schlägt fehl
vLLM vs Andere
Funktion
vLLM
llama.cpp
Ollama
Nächste Schritte
Zuletzt aktualisiert
War das hilfreich?