TensorRT-LLM

Максимальная пропускная способность вывода LLM с оптимизацией NVIDIA TensorRT — развернута через Triton Inference Server

TensorRT-LLM — это открытая библиотека NVIDIA для оптимизации инференса больших языковых моделей на GPU NVIDIA. Она обеспечивает передовые показатели производительности за счёт объединения ядер, квантизации (INT4, INT8, FP8), пакетирования в полёте и постраничного кеширования KV. В сочетании с Triton Inference Server вы получаете инфраструктуру обслуживания производственного уровня.

GitHub: NVIDIA/TensorRT-LLMarrow-up-right — 10K+ ⭐


Почему TensorRT-LLM?

Функция
vLLM
TensorRT-LLM

Пропускная способность

Отлично

Лучший в классе

Задержка

Хорошо

Отлично

Квантизация INT4/INT8

Частично

Нативная

Поддержка FP8

Ограничено

Полная

Тензорный параллелизм на нескольких GPU

Да

Да

Сложность настройки

Низкая

Средняя‑Высокая

circle-check

Требования

  • Учетная запись Clore.ai с арендой GPU

  • GPU NVIDIA с архитектурой Ampere или новее (RTX 3090, A100, RTX 4090, H100)

  • Базовые знания Linux и Docker

  • Достаточный объём VRAM для выбранной модели


Требования по VRAM в зависимости от модели

Модель
FP16
INT8
INT4

Llama-3.1 8B

16GB

8 ГБ

4 ГБ

Llama-3.1 70B

140 ГБ

70GB

35 ГБ

Mistral 7B

14 ГБ

7 ГБ

4 ГБ

Mixtral 8x7B

90 ГБ

45 ГБ

24GB

Qwen2.5 72B

144 ГБ

72GB

36 ГБ


Шаг 1 — Выберите GPU на Clore.ai

  1. Войдите в clore.aiarrow-up-rightМаркетплейс

  2. Для обслуживания на одном GPU (модели 7B–13B): RTX 4090 24GB или RTX 3090 24GB

  3. Для больших моделей (70B+): Несколько A100 80GB или H100

circle-info

Стратегия для нескольких GPU:

  • 2x A100 80GB → Llama 3.1 70B в FP16 или Qwen2.5 72B

  • 4x A100 80GB → Llama 3.1 405B в INT8

  • Выберите серверы с несколькими GPU, перечисленными на маркетплейсе Clore.ai


Шаг 2 — Разверните Triton Inference Server с бэкендом TRT-LLM

Docker-образ:

circle-exclamation

Открытые порты:

Переменные окружения:

Том/Диск: Рекомендуется минимум 100 ГБ


Шаг 3 — Подключение и проверка установки


Шаг 4 — Скачать и подготовить модель

В качестве примера используем Llama 3.1 8B. Настройте пути для выбранной модели.

Установите CLI HuggingFace

Скачать веса модели


Шаг 5 — Построение TensorRT-движка

Это ключевой шаг — компиляция модели в оптимизированный движок TensorRT.

FP16 движок (лучшее качество)

INT8 движок с SmoothQuant (большая пропускная способность)

INT4 AWQ движок (максимальная пропускная способность / минимальная память)

circle-info

Время сборки движка: 10–30 минут в зависимости от GPU и размера модели. Это одноразовая операция — после сборки движок загружается за секунды.


Шаг 6 — Быстрый тест с Python API TRT-LLM

Перед настройкой Triton проверьте, что движок работает:


Шаг 7 — Настройка Triton Inference Server

Создать структуру репозитория моделей

Создать символическую ссылку на движок

Запустить Triton Server


Шаг 8 — Запрос к API

Клиент, совместимый с OpenAI

Бенчмарк пропускной способности


Шаг 9 — Добавить обёртку API, совместимую с OpenAI

Для упрощения интеграции добавьте обёртку FastAPI:


Устранение неполадок

OOM при сборке движка

Triton Server не запускается

Низкая пропускная способность


Бенчмарки производительности на GPU Clore.ai

Модель
GPU
Квантование
Пропускная способность (токенов/с)

Llama 3.1 8B

RTX 4090

FP16

~3,500

Llama 3.1 8B

RTX 4090

INT4 AWQ

~6,200

Llama 3.1 70B

2x A100 80G

FP16

~1,800

Mixtral 8x7B

2x RTX 4090

INT8

~2,400


Дополнительные ресурсы


TensorRT-LLM на Clore.ai — оптимальный выбор для продакшн-обслуживания LLM, где критичны пропускная способность и задержки. Для более простых настроек рассмотрите руководство vLLM.


Рекомендации Clore.ai по GPU

Сценарий использования
Рекомендуемый GPU
Примерная стоимость на Clore.ai

Разработка/Тестирование

RTX 3090 (24GB)

~$0.12/gpu/hr

Производственный инференс

RTX 4090 (24GB)

~$0.70/gpu/hr

Крупные модели (70B+)

A100 80GB

~$1.20/gpu/hr

💡 Все примеры в этом руководстве можно развернуть на Clore.aiarrow-up-right GPU-серверах. Просматривайте доступные GPU и арендуйте по часам — без обязательств, с полным root-доступом.

Последнее обновление

Это было полезно?