vLLM

Высокопропускной инференс LLM с vLLM на GPU Clore.ai

Высокопроизводительный сервер вывода LLM для рабочих нагрузок в продакшене на GPU CLORE.AI.

circle-check
circle-info

Текущая версия: v0.7.x — Это руководство охватывает vLLM v0.7.3+. Новые функции включают поддержку DeepSeek-R1, структурированные выводы с автоматическим выбором инструментов, обслуживание нескольких LoRA и повышенную эффективность использования памяти.

Требования к серверу

Параметр
Минимум
Рекомендуется

ОЗУ

16GB

32 ГБ+

VRAM

16 ГБ (7B)

24 ГБ+

Сеть

500 Мбит/с

1 Гбит/с+

Время запуска

5–15 минут

-

triangle-exclamation
circle-exclamation

Почему vLLM?

  • Самая высокая пропускная способность - PagedAttention для в 24 раза большей пропускной способности

  • Готов к продакшену - Совместимый с OpenAI API из коробки

  • Непрерывная пакетная обработка - Эффективное обслуживание многопользовательских запросов

  • Потоковая передача (Streaming) - Генерация токенов в реальном времени

  • Мульти-GPU - Тензорный параллелизм для больших моделей

  • Multi-LoRA - Обслуживание нескольких тонко настроенных адаптеров одновременно (v0.7+)

  • Структурированные выводы - Принуждение к JSON-схеме и вызов инструментов (v0.7+)

Быстрое развертывание на CLORE.AI

Docker-образ:

Порты:

Команда:

Проверьте, что всё работает

После развертывания найдите ваш http_pub URL в Моих заказах:

circle-exclamation

Доступ к вашему сервису

При развертывании на CLORE.AI обращайтесь к vLLM через http_pub URL:

circle-info

Все localhost:8000 примеры ниже работают при подключении через SSH. Для внешнего доступа замените на ваш https://your-http-pub.clorecloud.net/ URL.

Установка

Использование Docker (рекомендуется)

Использование pip

Поддерживаемые модели

Модель
Параметры
Требуемая VRAM
Требуемая RAM

Mistral 7B

7B

14GB

16 ГБ+

Llama 3.1 8B

8B

16GB

16 ГБ+

Llama 3.1 70B

70B

140 ГБ (или 2x80 ГБ)

64 ГБ+

Mixtral 8x7B

47B

90 ГБ

32 ГБ+

Qwen2.5 7B

7B

14GB

16 ГБ+

Qwen2.5 72B

72B

145 ГБ

64 ГБ+

DeepSeek-V3

236B MoE

Мульти-GPU

128 ГБ+

DeepSeek-R1-Distill-Qwen-7B

7B

14GB

16 ГБ+

DeepSeek-R1-Distill-Qwen-32B

32B

64GB

32 ГБ+

DeepSeek-R1-Distill-Llama-70B

70B

140 ГБ

64 ГБ+

Phi-4

14B

28 ГБ

32 ГБ+

Gemma 2 9B

9B

18GB

16 ГБ+

CodeLlama 34B

34B

68 ГБ

32 ГБ+

Параметры сервера

Базовый сервер

Сервер для продакшена

С квантованием (меньше VRAM)

Структурированные выводы и вызов инструментов (v0.7+)

Включите автоматический выбор инструментов и структурированные JSON-выходы:

Использование в Python:

Структурированный JSON-выход через формат ответа:

Обслуживание Multi-LoRA (v0.7+)

Обслуживайте базовую модель с несколькими LoRA адаптерами одновременно:

Запрос конкретного LoRA адаптера по имени модели:

Поддержка DeepSeek-R1 (v0.7+)

vLLM v0.7+ имеет нативную поддержку дистиллированных моделей DeepSeek-R1. Эти модели рассуждения генерируют <think> теги, показывающие их процесс рассуждения.

DeepSeek-R1-Distill-Qwen-7B (один GPU)

DeepSeek-R1-Distill-Qwen-32B (два GPU)

DeepSeek-R1-Distill-Llama-70B (четыре GPU)

Запрос DeepSeek-R1

Разбор тегов think:

Использование API

Chat Completions (совместимо с OpenAI)

Потоковая передача (Streaming)

cURL

Текстовые дополнения

Полная справочная документация API

vLLM предоставляет совместимые с OpenAI конечные точки плюс дополнительные утилитные эндпоинты.

Стандартные конечные точки

Эндпоинт
Метод
Описание

/v1/models

GET

Показать доступные модели

/v1/chat/completions

POST

Чат-завершение

/v1/completions

POST

Завершение текста

/health

GET

Проверка состояния (может вернуть пустой ответ)

Дополнительные эндпоинты

Эндпоинт
Метод
Описание

/tokenize

POST

Токенизация текста

/detokenize

POST

Преобразовать токены в текст

/version

GET

Получить версию vLLM

/docs

GET

Документация Swagger UI

/metrics

GET

Метрики Prometheus

Токенизировать текст

Полезно для подсчёта токенов перед отправкой запросов:

Ответ:

Детокенизация

Преобразовать идентификаторы токенов обратно в текст:

Ответ:

Получить версию

Ответ:

Документация Swagger

Откройте в браузере для интерактивной документации API:

Метрики Prometheus

Для мониторинга:

circle-info

Модели рассуждения: DeepSeek-R1 и подобные модели включают <think> теги в ответах, показывающие процесс рассуждения модели перед окончательным ответом.

Бенчмарки

Пропускная способность (токенов/с на пользователя)

Модель
RTX 3090
RTX 4090
A100 40GB
A100 80GB

Mistral 7B

100

170

210

230

Llama 3.1 8B

95

150

200

220

Llama 3.1 8B (AWQ)

130

190

260

280

Mixtral 8x7B

-

45

70

85

Llama 3.1 70B

-

-

25 (2x)

45 (2x)

DeepSeek-R1 7B

90

145

190

210

DeepSeek-R1 32B

-

-

40

70 (2x)

Бенчмарки обновлены в январе 2026.

Длина контекста vs VRAM

Модель
4K контекст
8K контекст
16K контекст
32K контекст

8B FP16

18GB

22GB

30GB

46 ГБ

8B AWQ

8GB

10GB

14GB

22GB

70B FP16

145 ГБ

160GB

190 ГБ

250GB

70B AWQ

42GB

50GB

66 ГБ

98 ГБ

Аутентификация Hugging Face

Для закрытых моделей (Llama и др.):

Или установите как переменную окружения:

Требования к GPU

Модель
Мин. VRAM
Мин. RAM
Рекомендуется

7–8B

16GB

16GB

24 ГБ VRAM, 32 ГБ RAM

13B

26 ГБ

32GB

40 ГБ VRAM

34B

70GB

32GB

80 ГБ VRAM

70B

140 ГБ

64GB

2x80 ГБ

Оценка стоимости

Типичные расценки на маркетплейсе CLORE.AI:

GPU
VRAM
Цена/день
Лучше всего для

RTX 3090

24 ГБ

$0.30–1.00

Модели 7–8B

RTX 4090

24 ГБ

$0.50–2.00

7–13B, быстро

A100

40GB

$1.50–3.00

Модели 13–34B

A100

80GB

$2.00–4.00

Модели 34–70B

Цены в USD/день. Тарифы зависят от провайдера — проверьте CLORE.AI Marketplacearrow-up-right для текущих тарифов.

Устранение неполадок

HTTP 502 длительное время

  1. Проверьте RAM: Сервер должен иметь 16 ГБ+ RAM

  2. Проверьте VRAM: Должно помещаться в модель

  3. Загрузка модели: Первый запуск загружает с HuggingFace (5–15 мин)

  4. HF токен: Закрытые модели требуют аутентификации

Недостаточно памяти

Загрузка модели не удалась

vLLM против других

Функция
vLLM
llama.cpp
Ollama

Пропускная способность

Лучшее

Хорошо

Хорошо

Использование VRAM

Высокий

Низкая

Средне

Удобство использования

Средне

Средне

Лёгкий

Время запуска

5–15 мин

1–2 мин

30 сек

Мульти-GPU

Нативно

Ограничено

Ограничено

Вызов инструментов

Да (v0.7+)

Ограничено

Ограничено

Multi-LoRA

Да (v0.7+)

Нет

Нет

Используйте vLLM, когда:

  • В приоритете высокая пропускная способность

  • Обслуживание нескольких пользователей

  • Имеется достаточно VRAM и RAM

  • Развёртывание в продакшене

  • Нужен вызов инструментов / структурированные выводы

Используйте Ollama, когда:

  • Требуется быстрая настройка

  • Один пользователь

  • Меньше доступных ресурсов

Дальнейшие шаги

  • Ollama - Более простая альтернатива с более быстрым запуском

  • DeepSeek-R1 - Руководство по моделям рассуждения

  • DeepSeek-V3 - Лучшая общая модель

  • Qwen2.5 - Многоязычные модели

  • Llama.cpp - Вариант с меньшим VRAM

Последнее обновление

Это было полезно?