vLLM
Высокопропускной инференс LLM с vLLM на GPU Clore.ai
Требования к серверу
Параметр
Минимум
Рекомендуется
Почему vLLM?
Быстрое развертывание на CLORE.AI
Проверьте, что всё работает
Доступ к вашему сервису
Установка
Использование Docker (рекомендуется)
Использование pip
Поддерживаемые модели
Модель
Параметры
Требуемая VRAM
Требуемая RAM
Параметры сервера
Базовый сервер
Сервер для продакшена
С квантованием (меньше VRAM)
Структурированные выводы и вызов инструментов (v0.7+)
Обслуживание Multi-LoRA (v0.7+)
Поддержка DeepSeek-R1 (v0.7+)
DeepSeek-R1-Distill-Qwen-7B (один GPU)
DeepSeek-R1-Distill-Qwen-32B (два GPU)
DeepSeek-R1-Distill-Llama-70B (четыре GPU)
Запрос DeepSeek-R1
Использование API
Chat Completions (совместимо с OpenAI)
Потоковая передача (Streaming)
cURL
Текстовые дополнения
Полная справочная документация API
Стандартные конечные точки
Эндпоинт
Метод
Описание
Дополнительные эндпоинты
Эндпоинт
Метод
Описание
Токенизировать текст
Детокенизация
Получить версию
Документация Swagger
Метрики Prometheus
Бенчмарки
Пропускная способность (токенов/с на пользователя)
Модель
RTX 3090
RTX 4090
A100 40GB
A100 80GB
Длина контекста vs VRAM
Модель
4K контекст
8K контекст
16K контекст
32K контекст
Аутентификация Hugging Face
Требования к GPU
Модель
Мин. VRAM
Мин. RAM
Рекомендуется
Оценка стоимости
GPU
VRAM
Цена/день
Лучше всего для
Устранение неполадок
HTTP 502 длительное время
Недостаточно памяти
Загрузка модели не удалась
vLLM против других
Функция
vLLM
llama.cpp
Ollama
Дальнейшие шаги
Последнее обновление
Это было полезно?