vLLM
Inferencia LLM de alto rendimiento con vLLM en GPUs de Clore.ai
Requisitos del servidor
Parámetro
Mínimo
Recomendado
¿Por qué vLLM?
Despliegue rápido en CLORE.AI
Verificar que funciona
Accediendo a tu servicio
Instalación
Usando Docker (Recomendado)
Usando pip
Modelos compatibles
Modelo
Parámetros
VRAM requerida
RAM requerida
Opciones del servidor
Servidor básico
Servidor de Producción
Con cuantización (menos VRAM)
Salidas estructuradas y llamadas a herramientas (v0.7+)
Servicio Multi-LoRA (v0.7+)
Soporte DeepSeek-R1 (v0.7+)
DeepSeek-R1-Distill-Qwen-7B (GPU única)
DeepSeek-R1-Distill-Qwen-32B (GPU dual)
DeepSeek-R1-Distill-Llama-70B (GPU cuádruple)
Consultando DeepSeek-R1
Uso de la API
Chat Completions (compatible con OpenAI)
Streaming
cURL
Completaciones de texto
Referencia completa de la API
Puntos finales estándar
Endpoint
Método
Descripción
Endpoints adicionales
Endpoint
Método
Descripción
Tokenizar texto
Detokenizar
Obtener versión
Documentación Swagger
Métricas Prometheus
Benchmarks
Rendimiento (tokens/seg por usuario)
Modelo
RTX 3090
RTX 4090
A100 40GB
A100 80GB
Longitud de contexto vs VRAM
Modelo
ctx 4K
ctx 8K
ctx 16K
ctx 32K
Autenticación de Hugging Face
Requisitos de GPU
Modelo
VRAM mínima
RAM mínima
Recomendado
Estimación de costos
GPU
VRAM
Precio/día
Mejor para
Solución de problemas
HTTP 502 por mucho tiempo
Memoria insuficiente
La descarga del modelo falla
vLLM vs Otros
Función
vLLM
llama.cpp
Ollama
Próximos pasos
Última actualización
¿Te fue útil?