vLLM

Inferencia LLM de alto rendimiento con vLLM en GPUs de Clore.ai

Servidor de inferencia LLM de alto rendimiento para cargas de trabajo de producción en GPUs de CLORE.AI.

circle-check
circle-info

Versión actual: v0.7.x — Esta guía cubre vLLM v0.7.3+. Las nuevas características incluyen soporte DeepSeek-R1, salidas estructuradas con elección automática de herramientas, servicio multi-LoRA y mayor eficiencia de memoria.

Requisitos del servidor

Parámetro
Mínimo
Recomendado

RAM

16GB

32GB+

VRAM

16GB (7B)

24GB+

Red

500Mbps

1Gbps+

Tiempo de inicio

5-15 minutos

-

triangle-exclamation
circle-exclamation

¿Por qué vLLM?

  • Mayor rendimiento - PagedAttention para un rendimiento 24x mayor

  • Listo para producción - API compatible con OpenAI listo para usar

  • Batching continuo - Servicio multiusuario eficiente

  • Streaming - Generación de tokens en tiempo real

  • Multi-GPU - Paralelismo tensorial para modelos grandes

  • Multi-LoRA - Sirve múltiples adaptadores fine-tuned simultáneamente (v0.7+)

  • Salidas estructuradas - Aplicación de esquemas JSON y llamadas a herramientas (v0.7+)

Despliegue rápido en CLORE.AI

Imagen Docker:

Puertos:

Comando:

Verificar que funciona

Después del despliegue, encuentra tu http_pub URL en Mis Pedidos:

circle-exclamation

Accediendo a tu servicio

Cuando se despliega en CLORE.AI, accede a vLLM vía el http_pub URL:

circle-info

Todo localhost:8000 los ejemplos a continuación funcionan cuando está conectado vía SSH. Para acceso externo, reemplace con su https://your-http-pub.clorecloud.net/ URL.

Instalación

Usando Docker (Recomendado)

Usando pip

Modelos compatibles

Modelo
Parámetros
VRAM requerida
RAM requerida

Mistral 7B

7B

14GB

16GB+

Llama 3.1 8B

8B

16GB

16GB+

Llama 3.1 70B

70B

140GB (o 2x80GB)

64GB+

Mixtral 8x7B

47B

90GB

32GB+

Qwen2.5 7B

7B

14GB

16GB+

Qwen2.5 72B

72B

145GB

64GB+

DeepSeek-V3

236B MoE

Multi-GPU

128GB+

DeepSeek-R1-Distill-Qwen-7B

7B

14GB

16GB+

DeepSeek-R1-Distill-Qwen-32B

32B

64GB

32GB+

DeepSeek-R1-Distill-Llama-70B

70B

140GB

64GB+

Phi-4

14B

28GB

32GB+

Gemma 2 9B

9B

18GB

16GB+

CodeLlama 34B

34B

68GB

32GB+

Opciones del servidor

Servidor básico

Servidor de Producción

Con cuantización (menos VRAM)

Salidas estructuradas y llamadas a herramientas (v0.7+)

Habilita elección automática de herramientas y salidas JSON estructuradas:

Usar en Python:

Salida JSON estructurada mediante response format:

Servicio Multi-LoRA (v0.7+)

Servir un modelo base con múltiples adaptadores LoRA simultáneamente:

Consulta un adaptador LoRA específico por nombre de modelo:

Soporte DeepSeek-R1 (v0.7+)

vLLM v0.7+ tiene soporte nativo para modelos distill DeepSeek-R1. Estos modelos de razonamiento producen <think> etiquetas que muestran su proceso de razonamiento.

DeepSeek-R1-Distill-Qwen-7B (GPU única)

DeepSeek-R1-Distill-Qwen-32B (GPU dual)

DeepSeek-R1-Distill-Llama-70B (GPU cuádruple)

Consultando DeepSeek-R1

Analizando etiquetas think:

Uso de la API

Chat Completions (compatible con OpenAI)

Streaming

cURL

Completaciones de texto

Referencia completa de la API

vLLM proporciona endpoints compatibles con OpenAI además de endpoints utilitarios adicionales.

Puntos finales estándar

Endpoint
Método
Descripción

/v1/models

GET

Listar modelos disponibles

/v1/chat/completions

POST

Completación de chat

/v1/completions

POST

Completación de texto

/health

GET

Chequeo de salud (puede devolver vacío)

Endpoints adicionales

Endpoint
Método
Descripción

/tokenize

POST

Tokenizar texto

/detokenize

POST

Convertir tokens a texto

/version

GET

Obtener versión de vLLM

/docs

GET

Documentación Swagger UI

/metrics

GET

Métricas de Prometheus

Tokenizar texto

Útil para contar tokens antes de enviar solicitudes:

Respuesta:

Detokenizar

Convertir IDs de tokens de vuelta a texto:

Respuesta:

Obtener versión

Respuesta:

Documentación Swagger

Ábralo en el navegador para documentación interactiva de la API:

Métricas Prometheus

Para monitoreo:

circle-info

Modelos de razonamiento: DeepSeek-R1 y modelos similares incluyen <think> etiquetas en las respuestas que muestran el proceso de razonamiento del modelo antes de la respuesta final.

Benchmarks

Rendimiento (tokens/seg por usuario)

Modelo
RTX 3090
RTX 4090
A100 40GB
A100 80GB

Mistral 7B

100

170

210

230

Llama 3.1 8B

95

150

200

220

Llama 3.1 8B (AWQ)

130

190

260

280

Mixtral 8x7B

-

45

70

85

Llama 3.1 70B

-

-

25 (2x)

45 (2x)

DeepSeek-R1 7B

90

145

190

210

DeepSeek-R1 32B

-

-

40

70 (2x)

Benchmarks actualizados en enero de 2026.

Longitud de contexto vs VRAM

Modelo
ctx 4K
ctx 8K
ctx 16K
ctx 32K

8B FP16

18GB

22GB

30GB

46GB

8B AWQ

8GB

10GB

14GB

22GB

70B FP16

145GB

160GB

190GB

250GB

70B AWQ

42GB

50GB

66GB

98GB

Autenticación de Hugging Face

Para modelos restringidos (Llama, etc.):

O establecerlo como variable de entorno:

Requisitos de GPU

Modelo
VRAM mínima
RAM mínima
Recomendado

7-8B

16GB

16GB

24GB VRAM, 32GB RAM

13B

26GB

32GB

40GB VRAM

34B

70GB

32GB

80GB VRAM

70B

140GB

64GB

2x80GB

Estimación de costos

Tarifas típicas del mercado de CLORE.AI:

GPU
VRAM
Precio/día
Mejor para

RTX 3090

24GB

$0.30–1.00

Modelos 7-8B

RTX 4090

24GB

$0.50–2.00

7-13B, rápido

A100

40GB

$1.50–3.00

Modelos 13-34B

A100

80GB

$2.00–4.00

Modelos 34-70B

Precios en USD/día. Las tarifas varían según el proveedor: consulte CLORE.AI Marketplacearrow-up-right para las tarifas actuales.

Solución de problemas

HTTP 502 por mucho tiempo

  1. Verificar RAM: El servidor debe tener 16GB+ de RAM

  2. Verificar VRAM: Debe caber el modelo

  3. Descarga del modelo: La primera ejecución descarga desde HuggingFace (5-15 min)

  4. Token HF: Los modelos restringidos requieren autenticación

Memoria insuficiente

La descarga del modelo falla

vLLM vs Otros

Función
vLLM
llama.cpp
Ollama

Rendimiento

Mejor

Bueno

Bueno

Uso de VRAM

Alto

Baja

Medio

Facilidad de uso

Medio

Medio

Fácil

Tiempo de inicio

5-15 min

1-2 min

30 seg

Multi-GPU

Nativo

Limitado

Limitado

Llamada a herramientas

Sí (v0.7+)

Limitado

Limitado

Multi-LoRA

Sí (v0.7+)

No

No

Usa vLLM cuando:

  • El alto rendimiento sea prioridad

  • Atender a múltiples usuarios

  • Tener suficiente VRAM y RAM

  • Despliegue en producción

  • Necesitar llamadas a herramientas / salidas estructuradas

Usa Ollama cuando:

  • Se necesite configuración rápida

  • Usuario único

  • Menos recursos disponibles

Próximos pasos

Última actualización

¿Te fue útil?