Triton Inference Server

NVIDIA Triton Inference Server это промышленная, открытая платформа для развертывания инференса, которая поддерживает практически все основные ML-фреймворки. Разработанная для высокой пропускной способности и низкой задержки, Triton обрабатывает PyTorch, TensorFlow, ONNX, TensorRT, OpenVINO и другие — всё из одного процесса сервера. Разверните её в GPU‑облаке Clore.ai для масштабируемой и экономичной инфраструктуры инференса.


Что такое Triton Inference Server?

Triton — ответ NVIDIA на задачу обслуживания ML-моделей в масштабе:

  • Мультиифреймворк: PyTorch, TensorFlow, TensorRT, ONNX, OpenVINO, пользовательские бэкенды на Python

  • Параллельное выполнение: Несколько моделей, несколько экземпляров на GPU

  • Динамическая пакетизация: Автоматическая пакетизация запросов для повышения пропускной способности

  • gRPC + HTTP: Стандартные в отрасли протоколы из коробки

  • Метрики: Эндпоинт метрик совместимый с Prometheus

  • Репозиторий моделей: Управление моделями на основе файловой системы

Используемые порты:

Порт
Протокол
Назначение

8000

HTTP

REST API для инференса

8001

gRPC

gRPC API для инференса

8002

HTTP

Метрики Prometheus


Требования

Требование
Минимум
Рекомендуется

VRAM GPU

8 ГБ

16–24 ГБ

GPU

Любая NVIDIA с CUDA 11+

RTX 4090 / A100

ОЗУ

16 ГБ

32 ГБ

Хранилище

20 ГБ

50 ГБ

circle-info

Triton также поддерживает инференс только на CPU для задач без CUDA. Используйте вариант cpu-only образа Docker для экономии при пакетных заданиях, которым не требуется GPU.


Шаг 1 — Арендуйте GPU на Clore.ai

  1. Войдите в clore.aiarrow-up-right.

  2. Нажмите Маркетплейс и отфильтруйте по видеопамяти VRAM ≥ 16 ГБ.

  3. Выберите сервер и нажмите Настроить.

  4. Установите Docker-образ: nvcr.io/nvidia/tritonserver:24.01-py3

  5. Установите открытые порты: 22 (SSH), 8000 (HTTP), 8001 (gRPC), 8002 (метрики).

  6. Нажмите Арендовать.

circle-exclamation

Шаг 2 — Пользовательский Dockerfile (с SSH)

Официальный образ Triton не включает SSH-сервер. Используйте этот Dockerfile:


Шаг 3 — Понимание репозитория моделей

Triton загружает модели из репозитория моделей — директории со специфической структурой:

Каждой модели требуется:

  1. Каталог с именем модели

  2. Файл config.pbtxt файл конфигурации

  3. Как минимум одна подпапка версии (например, 1/) с файлом модели


Шаг 4 — Разверните модель PyTorch

Экспорт модели в TorchScript

Настройка репозитория моделей

Создать config.pbtxt


Шаг 5 — Разверните модель ONNX

Экспорт в ONNX

Конфигурация ONNX


Шаг 6 — Разверните пользовательский бэкенд на Python

Для моделей, которые не подходят стандартным бэкендам (пользовательская предобработка, логика ансамбля):


Шаг 7 — Запустите Triton и протестируйте

Запустить Triton Server

Проверить доступные модели

Выполнить инференс через HTTP

Выполнить инференс через gRPC


Мониторинг с Prometheus

Triton выставляет метрики на порту 8002:

Ключевые метрики:


Конфигурация динамической пакетизации


Устранение неполадок

Ошибка загрузки модели

Решение: Проверьте структуру директорий и права доступа:

Несовместимость CUDA

Решение: Соответствуйте версию образа Triton версии вашего драйвера CUDA:

Порт недоступен

Решение: Убедитесь, что все три порта (8000, 8001, 8002) проброшены в Clore.ai. Проверьте каждый:

OOM при загрузке модели

Решение: Уменьшите количество экземпляров или используйте CPU‑инстансы для некоторых моделей:


Оценка стоимости

GPU
VRAM
Примерная цена
Пропускная способность (ResNet50)

RTX 3080

10 ГБ

~$0.10/час

~500 запросов/сек

RTX 4090

24 ГБ

~$0.35/час

~1500 запросов/сек

A100 40GB

40 ГБ

~$0.80/час

~3000 запросов/сек

H100

80 ГБ

~$2.50/час

~8000 запросов/сек


Полезные ресурсы


Рекомендации по GPU для Clore.ai

Сценарий использования
Рекомендуемый GPU
Примерная стоимость на Clore.ai

Разработка/Тестирование

RTX 3090 (24GB)

~$0.12/gpu/hr

Производственный инференс

RTX 4090 (24GB)

~$0.70/gpu/hr

Крупные модели (70B+)

A100 80GB

~$1.20/gpu/hr

💡 Все примеры в этом руководстве можно развернуть на Clore.aiarrow-up-right GPU-серверах. Просматривайте доступные GPU и арендуйте по часам — без обязательств, с полным root-доступом.

Последнее обновление

Это было полезно?