MLC-LLM
Что такое MLC-LLM?
Ключевые возможности
Зачем использовать MLC-LLM на Clore.ai?
Быстрый старт на Clore.ai
Шаг 1: Найдите GPU-сервер
Шаг 2: Разверните MLC-LLM
Порт контейнера
Назначение
Шаг 3: Подключитесь по SSH
Установка и настройка
Вариант A: Использовать предскомпилированные модели (быстрее всего)
Вариант B: Скомпилируйте свою модель
Запуск API-сервера
Запустите сервер, совместимый с OpenAI
Вывод при старте сервера
Доступные конечные точки API
Конечная точка
Метод
Описание
Примеры использования API
Chat Completions (Python)
Потоковый ответ
Пример cURL
Доступные предскомпилированные модели
Серия Llama 3
Mistral / Mixtral
Gemma
Phi
Опции квантизации
Квантование
Биты
Качество
VRAM (7B)
VRAM (13B)
Развёртывание на нескольких GPU
Веб-интерфейс чата
Настройка производительности
Оптимизация размера батча
Мониторинг загрузки GPU
Бенчмарк пропускной способности
Настройка Docker Compose
Устранение неполадок
Сбой загрузки модели
Недостаточно памяти (OOM)
Несоответствие версии CUDA
Сервер недоступен
Рекомендации Clore.ai по GPU
GPU
VRAM
Цена Clore.ai
Лучше всего для
Пропускная способность (Llama 3 8B Q4)
Ресурсы
Последнее обновление
Это было полезно?