TensorRT-LLM
Почему TensorRT-LLM?
Функция
vLLM
TensorRT-LLM
Требования
Требования по VRAM в зависимости от модели
Модель
FP16
INT8
INT4
Шаг 1 — Выберите GPU на Clore.ai
Шаг 2 — Разверните Triton Inference Server с бэкендом TRT-LLM
Шаг 3 — Подключение и проверка установки
Шаг 4 — Скачать и подготовить модель
Установите CLI HuggingFace
Скачать веса модели
Шаг 5 — Построение TensorRT-движка
FP16 движок (лучшее качество)
INT8 движок с SmoothQuant (большая пропускная способность)
INT4 AWQ движок (максимальная пропускная способность / минимальная память)
Шаг 6 — Быстрый тест с Python API TRT-LLM
Шаг 7 — Настройка Triton Inference Server
Создать структуру репозитория моделей
Создать символическую ссылку на движок
Запустить Triton Server
Шаг 8 — Запрос к API
Клиент, совместимый с OpenAI
Бенчмарк пропускной способности
Шаг 9 — Добавить обёртку API, совместимую с OpenAI
Устранение неполадок
OOM при сборке движка
Triton Server не запускается
Низкая пропускная способность
Бенчмарки производительности на GPU Clore.ai
Модель
GPU
Квантование
Пропускная способность (токенов/с)
Дополнительные ресурсы
Рекомендации Clore.ai по GPU
Сценарий использования
Рекомендуемый GPU
Примерная стоимость на Clore.ai
Последнее обновление
Это было полезно?