# 概览

用于生产机器学习工作负载的 GPU 加速 DevOps 工具和推理引擎。

现代 DevOps 日益依赖 GPU 加速来进行模型服务、实时推理和高性能计算任务。本类别涵盖利用 GPU 计算实现更快模型推理和优化部署管道的生产就绪工具。

在 CLORE.AI GPU 上部署企业级推理引擎和运行时环境，以在 Clore.ai 市场中以最低延迟和最高吞吐量大规模提供机器学习模型服务。

## 可用指南

| 指南                                                                                | 用例         | 难度 |
| --------------------------------------------------------------------------------- | ---------- | -- |
| [ONNX 运行时 GPU](https://docs.clore.ai/guides/guides_v2-zh/gpu-devops/onnx-runtime) | 跨平台模型推理    | 中等 |
| [TensorRT-LLM](https://docs.clore.ai/guides/guides_v2-zh/gpu-devops/tensorrt-llm) | 优化的 LLM 服务 | 高级 |

## GPU 建议

| 工作负载         | 最低 GPU   | 推荐        |
| ------------ | -------- | --------- |
| ONNX 推理      | GTX 1660 | RTX 3070+ |
| TensorRT-LLM | RTX 3090 | A100 40GB |
| 生产级服务        | RTX 4090 | H100      |

## 性能提示

* 对 NVIDIA GPU 使用 TensorRT 进行优化
* 启用混合精度（FP16）以加速推理
* 对请求进行批处理以提高吞吐量
* 监控 GPU 利用率和内存使用情况

## 相关指南

* [语言模型](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/language-models)
* [MLOps](https://docs.clore.ai/guides/guides_v2-zh/mlops-yu-bu-shu/mlops)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-zh/gpu-devops/devops-gpu.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
