ONNX 运行时 GPU
为什么选择 ONNX Runtime?
功能
ONNX Runtime
TorchScript
TensorFlow Serving
支持的执行提供程序
提供程序
硬件
在 Clore.ai 上的预估费用
先决条件
步骤 1 — 在 Clore.ai 上租用 GPU
步骤 2 — 部署您的容器
步骤 3 — 安装支持 GPU 的 ONNX Runtime
步骤 4 — 将模型导出为 ONNX
PyTorch 模型导出
HuggingFace Transformers 导出
使用 ORT 优化导出
步骤 5 — 使用 ONNX Runtime 运行推理
基础 GPU 推理
批量推理以提高吞吐量
步骤 6 — TensorRT 执行提供程序(极致性能)
步骤 7 — 为最大速度进行 INT8 量化
步骤 8 — 构建推理 API
步骤 9 — 监控 GPU 使用情况
性能基准
模型
GPU
提供程序
吞吐量(推理/秒)
故障排除
CUDA 提供程序不可用
TensorRT 编译错误
形状不匹配错误
高级:多模型流水线
附加资源
Clore.ai 的 GPU 建议
在 Clore.ai 上的预估费用
开发/测试
RTX 3090(24GB)
最后更新于
这有帮助吗?