大模型服务:Ollama 对比 vLLM 对比 TGI
比较 vLLM、SGLang、Ollama、TGI 与 LocalAI 的 LLM 服务方案
快速决策指南
模型变体
最佳选择
原因
启动时间比较
解决方案
典型启动时间
注意事项
概览比较
特性
Ollama
vLLM
SGLang
TGI
LocalAI
2025 基准:DeepSeek-R1-32B
TTFT、TPOT 与吞吐量(A100 80GB,batch=32,input=512,output=512)
框架
TTFT(毫秒)
TPOT(毫秒/标记)
吞吐量(标记/秒)
注意事项
吞吐量比较(RTX 4090,Llama 3.1 8B,10 并发用户)
框架
每秒标记数
并发用户数
注意事项
SGLang
概览
优点
缺点
快速开始
在 SGLang 中使用 DeepSeek-R1
API 使用
多 GPU
最适合
Ollama
概览
优点
缺点
快速开始
API 使用
OpenAI 兼容性
background = Image.open("studio_bg.jpg")
A100
GPU
每秒标记数
最适合
vLLM
概览
优点
缺点
快速开始
Docker 部署
API 使用
多 GPU
background = Image.open("studio_bg.jpg")
A100
GPU
每秒标记数
并发用户数
最适合
Text Generation Inference (TGI)
概览
优点
缺点
快速开始
background = Image.open("studio_bg.jpg")
A100
GPU
每秒标记数
并发用户数
最适合
LocalAI
概览
优点
缺点
快速开始
API 使用
最适合
性能比较(2025)
吞吐量(标记/秒)— 单用户
A100
Ollama
vLLM v0.7
SGLang v0.4
TGI
吞吐量 — 多用户(10 并发)
A100
Ollama
vLLM v0.7
SGLang v0.4
TGI
内存使用
A100
Ollama
vLLM v0.7
SGLang v0.4
TGI
首次输出令牌时间(TTFT)— DeepSeek-R1-32B
框架
TTFT(A100 80GB)
TPOT(毫秒/标记)
功能比较
特性
Ollama
vLLM v0.7
SGLang v0.4
TGI
LocalAI
何时使用哪种工具
在以下情况下使用 Ollama:
在以下情况下使用 SGLang:
在以下情况下使用 vLLM:
在以下情况下使用 TGI:
在以下情况下使用 LocalAI:
迁移指南
从 Ollama 到 SGLang
从 vLLM 到 SGLang
按 GPU 的推荐
GPU
单用户
多用户
推理模型
使用以下方式支付
最后更新于
这有帮助吗?