LMDeploy
Что такое LMDeploy?
Почему LMDeploy?
Функция
LMDeploy
vLLM
TGI
Быстрый старт на Clore.ai
Шаг 1: Выберите GPU-сервер
Шаг 2: Разверните LMDeploy в Docker
Порт контейнера
Назначение
Шаг 3: SSH и проверка
Запуск API-сервера
Совместимый с OpenAI сервер (рекомендуется)
Движок PyTorch (широкая совместимость)
Вывод при старте сервера
Поддерживаемые модели
Текстовые модели
Визионно-языковые модели
Квантование
AWQ квантование 4-бит
SmoothQuant W8A8
Влияние квантования
Квантование
VRAM (7B)
Потеря качества
Прирост пропускной способности
Примеры использования API
Клиент на Python
Потоковая передача
Нативный Python-клиент LMDeploy
Визионно-языковая модель
Развёртывание на нескольких GPU
Тензорный параллелизм
Расширенные настройки
Конфигурация движка TurboMind
Конфигурация генерации
Мониторинг и метрики
Проверить состояние сервера
Мониторинг GPU
Пример Docker Compose
Бенчмаркинг
Рекомендации Clore.ai по GPU
Сценарий использования
GPU
VRAM
Почему
Устранение неполадок
Модель не загружается
CUDA: недостаточно памяти
Порт уже используется
Рекомендации Clore.ai по GPU
GPU
VRAM
Цена Clore.ai
Пропускная способность Llama 3 8B
Llama 3 70B Q4
Ресурсы
Последнее обновление
Это было полезно?