Triton 推理服务器

NVIDIA Triton 推理服务器 是一个面向生产、开源的推理服务平台,支持几乎所有主流的机器学习框架。Triton 为高吞吐、低延迟的服务而设计,能够处理 PyTorch、TensorFlow、ONNX、TensorRT、OpenVINO 等——全部在单个服务器进程中运行。将其部署在 Clore.ai 的 GPU 云上以获得可扩展且具有成本效益的推理基础设施。


什么是 Triton 推理服务器?

Triton 是 NVIDIA 针对大规模部署机器学习模型服务这一挑战的解决方案:

  • 多框架: PyTorch、TensorFlow、TensorRT、ONNX、OpenVINO、Python 自定义后端

  • 并发执行: 多个模型,每个 GPU 上多个实例

  • 动态批处理: 自动对请求进行批处理以提高吞吐量

  • gRPC + HTTP: 开箱即用的行业标准协议

  • 指标: 兼容 Prometheus 的指标端点

  • 模型仓库: 基于文件系统的模型管理

使用的端口:

端口
协议
用途

8000

HTTP

REST 推理 API

8001

gRPC

gRPC 推理 API

8002

HTTP

Prometheus 指标


先决条件

要求
最低
推荐

GPU 显存

8 GB

16–24 GB

GPU

任何支持 CUDA 11+ 的 NVIDIA GPU

RTX 4090 / A100

内存 (RAM)

16 GB

32 GB

存储

20 GB

50 GB

circle-info

Triton 也支持仅 CPU 的推理以处理无 CUDA 的工作负载。对于不需要 GPU 的批处理作业,可使用 仅 CPU 变体的 Docker 镜像以节省成本。


步骤 1 — 在 Clore.ai 上租用 GPU

  1. 点击 市场 并筛选 VRAM ≥ 16 GB。

  2. 选择一台服务器并点击 配置.

  3. 设置 Docker 镜像: nvcr.io/nvidia/tritonserver:24.01-py3

  4. 设置开放端口: 22 (SSH), 8000 (HTTP), 8001 (gRPC), 8002 (指标)。

  5. 点击 租用.

circle-exclamation

步骤 2 — 自定义 Dockerfile(包含 SSH)

官方 Triton 镜像不包含 SSH 服务。使用此 Dockerfile:


步骤 3 — 了解模型仓库

Triton 从 模型仓库 加载模型 — 一个具有特定结构的目录:

每个模型需要:

  1. 一个以模型名称命名的目录

  2. 一个 config.pbtxt 配置文件

  3. 至少一个版本子目录(例如, 1/)并包含模型文件


步骤 4 — 部署 PyTorch 模型

导出模型为 TorchScript

设置模型仓库

创建 config.pbtxt


步骤 5 — 部署 ONNX 模型

导出为 ONNX

ONNX 配置


步骤 6 — 部署 Python 自定义后端

对于不适合标准后端的模型(自定义预处理、集成逻辑):


步骤 7 — 启动 Triton 并测试

启动 Triton 服务器

检查可用模型

通过 HTTP 运行推理

通过 gRPC 运行推理


使用 Prometheus 进行监控

Triton 在端口 8002 暴露指标:

关键指标:


动态批处理配置


RuntimeError: CUDA out of memory

模型加载失败

解决方案: 检查目录结构和权限:

CUDA 不兼容

解决方案: 将 Triton 镜像版本与您的 CUDA 驱动匹配:

端口不可访问

解决方案: 确认在 Clore.ai 中已转发所有三个端口(8000、8001、8002)。逐个测试:

模型加载时 OOM(内存不足)

解决方案: 减少实例数量或对部分模型使用 CPU 实例:


成本估算

GPU
显存 (VRAM)
预计价格
吞吐量(ResNet50)

RTX 3080

10 GB

约 $0.10/小时

约 500 请求/秒

RTX 4090

24 GB

约 $0.35/小时

约 1500 请求/秒

A100 40GB

40 GB

约 $0.80/小时

约 3000 请求/秒

H100

80 GB

约 $2.50/小时

约 8000 请求/秒


有用的资源


推荐 GPU

在 Clore.ai 上的预估费用
开发/测试
RTX 3090(24GB)

~$0.12/每 GPU/每小时

生产

RTX 4090(24GB)

生产级推理

大规模

A100 80GB

大型模型(70B+)

💡 本指南中的所有示例均可部署在

Clore.ai

GPU 服务器上。浏览可用 GPU 并按小时租用 — 无需承诺,提供完整的 root 访问权限。 Clore.aiarrow-up-right GPU 服务器。浏览可用 GPU 并按小时租用 — 无需承诺,提供完整的 root 访问权限。

最后更新于

这有帮助吗?