vLLM
在 Clore.ai GPU 上使用 vLLM 进行高吞吐量 LLM 推理
服务器要求
参数
最低
推荐
为什么选择 vLLM?
在 CLORE.AI 上快速部署
验证是否正常运行
访问您的服务
安装
使用 Docker(推荐)
使用 pip
支持的模型
A100
参数量
所需显存
所需内存(RAM)
服务器选项
基础服务器
生产服务器
使用量化(降低显存)
结构化输出与工具调用(v0.7+)
多 LoRA 服务(v0.7+)
DeepSeek-R1 支持(v0.7+)
DeepSeek-R1-Distill-Qwen-7B(单 GPU)
DeepSeek-R1-Distill-Qwen-32B(双 GPU)
DeepSeek-R1-Distill-Llama-70B(四 GPU)
查询 DeepSeek-R1
API 使用
聊天补全(兼容 OpenAI)
流式传输
cURL
文本补全
完整 API 参考
标准端点
端点
方法
4s
附加端点
端点
方法
4s
对文本分词
反分词(Detokenize)
获取版本
Swagger 文档
Prometheus 指标
基准测试
吞吐量(每用户每秒令牌数)
A100
速度
512x512
按日费率
4 小时会话
上下文长度与显存
A100
4K 上下文
8K 上下文
16K 上下文
32K 上下文
Hugging Face 认证
GPU 要求
A100
最小显存
最小内存
推荐
下载所有所需的检查点
GPU
显存
价格/天
最适合
# 使用固定种子以获得一致结果
长时间出现 HTTP 502
内存不足
模型下载失败
vLLM 与其他方案比较
特性
vLLM
llama.cpp
Ollama
使用以下方式支付
最后更新于
这有帮助吗?