LLM-Serving: Ollama vs vLLM vs TGI
vLLM vs SGLang vs Ollama vs TGI vs LocalAI für LLM‑Serving vergleichen
Schnelle Entscheidungsübersicht
Einsatzgebiet
Beste Wahl
Warum
Vergleich der Startzeit
Lösung
Typischer Start
Hinweise
Übersichtsvergleich
Funktion
Ollama
vLLM
SGLang
TGI
LocalAI
2025-Benchmarks: DeepSeek-R1-32B
TTFT, TPOT & Durchsatz (A100 80GB, batch=32, input=512, output=512)
Framework
TTFT (ms)
TPOT (ms/tok)
Durchsatz (tok/s)
Hinweise
Durchsatzvergleich (RTX 4090, Llama 3.1 8B, 10 gleichzeitige Nutzer)
Framework
Tokens/sec
Gleichzeitige Nutzer
Hinweise
SGLang
Überblick
Vorteile
Nachteile
Schnellstart
DeepSeek-R1 mit SGLang
API-Nutzung
Multi-GPU
Am besten geeignet für
Ollama
Überblick
Vorteile
Nachteile
Schnellstart
API-Nutzung
OpenAI-Kompatibilität
Leistung
Modell
GPU
Tokens/sec
Am besten geeignet für
vLLM
Überblick
Vorteile
Nachteile
Schnellstart
Docker-Deployment
API-Nutzung
Multi-GPU
Leistung
Modell
GPU
Tokens/sec
Gleichzeitige Nutzer
Am besten geeignet für
Text Generation Inference (TGI)
Überblick
Vorteile
Nachteile
Schnellstart
Leistung
Modell
GPU
Tokens/sec
Gleichzeitige Nutzer
Am besten geeignet für
LocalAI
Überblick
Vorteile
Nachteile
Schnellstart
API-Nutzung
Am besten geeignet für
Leistungsvergleich (2025)
Durchsatz (Token/Sekunde) — Einzelner Nutzer
Modell
Ollama
vLLM v0.7
SGLang v0.4
TGI
Durchsatz — Mehrere Nutzer (10 gleichzeitig)
Modell
Ollama
vLLM v0.7
SGLang v0.4
TGI
Speichernutzung
Modell
Ollama
vLLM v0.7
SGLang v0.4
TGI
Time to First Token (TTFT) — DeepSeek-R1-32B
Framework
TTFT (A100 80GB)
TPOT (ms/tok)
Funktionsvergleich
Funktion
Ollama
vLLM v0.7
SGLang v0.4
TGI
LocalAI
Wann man was verwenden sollte
Verwende Ollama, wenn:
Verwende SGLang, wenn:
Verwende vLLM, wenn:
Verwende TGI, wenn:
Verwende LocalAI, wenn:
Migrationsleitfaden
Von Ollama zu SGLang
Von vLLM zu SGLang
Empfehlungen nach GPU
GPU
Einzelner Nutzer
Mehrere Nutzer
Reasoning-Modelle
Nächste Schritte
Zuletzt aktualisiert
War das hilfreich?