TensorRT-LLM

通过 NVIDIA TensorRT 优化实现的最大 LLM 推理吞吐量 — 通过 Triton Inference Server 部署

TensorRT-LLM 是 NVIDIA 的开源库,用于在 NVIDIA GPU 上优化大型语言模型的推理。它通过内核融合、量化(INT4、INT8、FP8)、飞行中批处理和分页 KV 缓存提供最新水平的性能。与 Triton Inference Server 结合,可获得生产级别的服务基础设施。

GitHub: NVIDIA/TensorRT-LLMarrow-up-right — 10K+ ⭐


为什么选择 TensorRT-LLM?

功能
vLLM
TensorRT-LLM

吞吐量

适合照片级写实

同类最佳

延迟

快速

适合照片级写实

INT4/INT8 量化

部分支持

原生

支持 FP8

有限

完整(Full)

多 GPU 张量并行

设置复杂度

中等-高

circle-check

先决条件

  • 具有 GPU 租用的 Clore.ai 帐户

  • 具有安培(Ampere)架构或更新架构的 NVIDIA GPU (RTX 3090、A100、RTX 4090、H100)

  • 基本的 Linux 和 Docker 知识

  • 为所选模型准备足够的显存(VRAM)


按模型划分的显存需求

模型
FP16
INT8
INT4

Llama-3.1 8B

16GB

8GB

4GB

Llama-3.1 70B

140GB

70GB

35GB

Mistral 7B

14GB

7GB

4GB

Mixtral 8x7B

90GB

45GB

24GB

Qwen2.5 72B

144GB

72GB

36GB


第 1 步 — 在 Clore.ai 上选择您的 GPU

  1. 登录到 clore.aiarrow-up-right市场

  2. 对于单 GPU 服务(7B–13B 模型): RTX 4090 24GB 或 RTX 3090 24GB

  3. 对于大型模型(70B+): 多块 A100 80GB 或 H100

circle-info

多 GPU 策略:

  • 2x A100 80GB → Llama 3.1 70B(FP16)或 Qwen2.5 72B

  • 4x A100 80GB → Llama 3.1 405B(INT8)

  • 在 Clore.ai 市场中选择列出多 GPU 的服务器


第 2 步 — 使用 TRT-LLM 后端 部署 Triton Inference Server

Docker 镜像:

circle-exclamation

暴露端口:

环境变量:

卷/磁盘: 建议至少 100GB


第 3 步 — 连接并验证安装


第 4 步 — 下载并准备模型

我们将以 Llama 3.1 8B 为示例。根据所选模型调整路径。

安装 HuggingFace CLI

下载模型权重


第 5 步 — 构建 TensorRT 引擎

这是关键步骤 — 将模型编译为优化后的 TensorRT 引擎。

FP16 引擎(最佳质量)

INT8 SmoothQuant 引擎(更高吞吐量)

INT4 AWQ 引擎(最大吞吐量 / 最小内存占用)

circle-info

引擎构建时间: 取决于 GPU 与模型大小,需 10–30 分钟。这是一次性操作 — 构建完成后,引擎可以在数秒内加载。


第 6 步 — 使用 TRT-LLM Python API 快速测试

在设置 Triton 之前,先验证引擎是否可用:


第 7 步 — 设置 Triton Inference Server

创建模型仓库结构

创建引擎符号链接

启动 Triton 服务器


第 8 步 — 查询 API

兼容 OpenAI 的客户端

基准吞吐量测试


第 9 步 — 添加兼容 OpenAI 的 API 封装

为更易集成,添加 FastAPI 封装:


故障排除

引擎构建 OOM(内存不足)

Triton 服务器未启动

低吞吐量


Clore.ai GPU 上的性能基准

模型
GPU
量化
吞吐量(tokens/秒)

Llama 3.1 8B

RTX 4090

FP16

~3,500

Llama 3.1 8B

RTX 4090

INT4 AWQ

~6,200

Llama 3.1 70B

2x A100 80G

FP16

~1,800

Mixtral 8x7B

2x RTX 4090

INT8

~2,400


附加资源


当吞吐量和延迟至关重要时,Clore.ai 上的 TensorRT-LLM 是用于生产 LLM 服务的最佳选择。对于更简单的部署,可以考虑 vLLM 指南。


Clore.ai 的 GPU 建议

在 Clore.ai 上的预估费用
开发/测试
RTX 3090(24GB)

~$0.12/每 GPU/每小时

生产

RTX 4090(24GB)

生产级推理

大规模

A100 80GB

大型模型(70B+)

💡 本指南中的所有示例均可部署在

Clore.ai

GPU 服务器上。浏览可用 GPU 并按小时租用 — 无需承诺,提供完整的 root 访问权限。 Clore.aiarrow-up-right GPU 服务器。浏览可用 GPU 并按小时租用 — 无需承诺,提供完整的 root 访问权限。

最后更新于

这有帮助吗?