vLLM
Inférence LLM à haut débit avec vLLM sur les GPU Clore.ai
Exigences du serveur
Paramètre
Minimum
Recommandé
Pourquoi vLLM ?
Déploiement rapide sur CLORE.AI
Vérifiez que cela fonctionne
Accéder à votre service
Installation
Utilisation de Docker (recommandé)
Utilisation de pip
Modèles pris en charge
Modèle
Paramètres
VRAM requise
RAM requise
Options du serveur
Serveur basique
Serveur de production
Avec quantification (moins de VRAM)
Sorties structurées et appels d'outils (v0.7+)
Service Multi-LoRA (v0.7+)
Prise en charge DeepSeek-R1 (v0.7+)
DeepSeek-R1-Distill-Qwen-7B (GPU unique)
DeepSeek-R1-Distill-Qwen-32B (GPU double)
DeepSeek-R1-Distill-Llama-70B (Quad GPU)
Interroger DeepSeek-R1
Utilisation de l'API
Chat Completions (compatible OpenAI)
Streaming
cURL
Complétions de texte
Référence complète de l'API
Points de terminaison standard
Point de terminaison
Méthode
Description
Points de terminaison supplémentaires
Point de terminaison
Méthode
Description
Tokenizer du texte
Dé-tokenisation
Obtenir la version
Documentation Swagger
Metrics Prometheus
Benchmarks
Débit (tokens/sec par utilisateur)
Modèle
RTX 3090
RTX 4090
A100 40GB
A100 80GB
Longueur de contexte vs VRAM
Modèle
Contexte 4K
Contexte 8K
Contexte 16K
Contexte 32K
Authentification Hugging Face
Exigences GPU
Modèle
VRAM min
RAM min
Recommandé
Estimation des coûts
GPU
VRAM
Prix/jour
Idéal pour
Dépannage
HTTP 502 pendant longtemps
Mémoire insuffisante
Échec du téléchargement du modèle
vLLM vs autres
Fonction
vLLM
llama.cpp
composant Ollama
Prochaines étapes
Mis à jour
Ce contenu vous a-t-il été utile ?