ONNX Runtime GPU
Почему ONNX Runtime?
Функция
ONNX Runtime
TorchScript
TensorFlow Serving
Поддерживаемые провайдеры выполнения
Провайдер
Оборудование
Сценарий использования
Требования
Шаг 1 — Арендуйте GPU на Clore.ai
Шаг 2 — Разверните ваш контейнер
Шаг 3 — Установите ONNX Runtime с поддержкой GPU
Шаг 4 — Экспортируйте вашу модель в ONNX
Экспорт модели PyTorch
Экспорт HuggingFace Transformers
Экспорт с оптимизацией ORT
Шаг 5 — Запуск инференса с ONNX Runtime
Базовый GPU-инференс
Пакетный инференс для пропускной способности
Шаг 6 — Провайдер выполнения TensorRT (максимальная производительность)
Шаг 7 — Квантизация до INT8 для максимальной скорости
Шаг 8 — Постройте API инференса
Шаг 9 — Мониторинг использования GPU
Тесты производительности
Модель
GPU
Провайдер
Пропускная способность (инференс/сек)
Устранение неполадок
Провайдер CUDA недоступен
Ошибки компиляции TensorRT
Ошибки несоответствия формы
Продвинуто: конвейер с несколькими моделями
Дополнительные ресурсы
Рекомендации Clore.ai по GPU
Сценарий использования
Рекомендуемый GPU
Примерная стоимость на Clore.ai
Последнее обновление
Это было полезно?