Triton Inference Server
Что такое Triton Inference Server?
Порт
Протокол
Назначение
Требования
Требование
Минимум
Рекомендуется
Шаг 1 — Арендуйте GPU на Clore.ai
Шаг 2 — Пользовательский Dockerfile (с SSH)
Шаг 3 — Понимание репозитория моделей
Шаг 4 — Разверните модель PyTorch
Экспорт модели в TorchScript
Настройка репозитория моделей
Создать config.pbtxt
Шаг 5 — Разверните модель ONNX
Экспорт в ONNX
Конфигурация ONNX
Шаг 6 — Разверните пользовательский бэкенд на Python
Шаг 7 — Запустите Triton и протестируйте
Запустить Triton Server
Проверить доступные модели
Выполнить инференс через HTTP
Выполнить инференс через gRPC
Мониторинг с Prometheus
Конфигурация динамической пакетизации
Устранение неполадок
Ошибка загрузки модели
Несовместимость CUDA
Порт недоступен
OOM при загрузке модели
Оценка стоимости
GPU
VRAM
Примерная цена
Пропускная способность (ResNet50)
Полезные ресурсы
Рекомендации по GPU для Clore.ai
Сценарий использования
Рекомендуемый GPU
Примерная стоимость на Clore.ai
Последнее обновление
Это было полезно?