TensorRT-LLM
为什么选择 TensorRT-LLM?
功能
vLLM
TensorRT-LLM
先决条件
按模型划分的显存需求
模型
FP16
INT8
INT4
第 1 步 — 在 Clore.ai 上选择您的 GPU
第 2 步 — 使用 TRT-LLM 后端 部署 Triton Inference Server
第 3 步 — 连接并验证安装
第 4 步 — 下载并准备模型
安装 HuggingFace CLI
下载模型权重
第 5 步 — 构建 TensorRT 引擎
FP16 引擎(最佳质量)
INT8 SmoothQuant 引擎(更高吞吐量)
INT4 AWQ 引擎(最大吞吐量 / 最小内存占用)
第 6 步 — 使用 TRT-LLM Python API 快速测试
第 7 步 — 设置 Triton Inference Server
创建模型仓库结构
创建引擎符号链接
启动 Triton 服务器
第 8 步 — 查询 API
兼容 OpenAI 的客户端
基准吞吐量测试
第 9 步 — 添加兼容 OpenAI 的 API 封装
故障排除
引擎构建 OOM(内存不足)
Triton 服务器未启动
低吞吐量
Clore.ai GPU 上的性能基准
模型
GPU
量化
吞吐量(tokens/秒)
附加资源
Clore.ai 的 GPU 建议
在 Clore.ai 上的预估费用
开发/测试
RTX 3090(24GB)
最后更新于
这有帮助吗?