vLLM

Inférence LLM à haut débit avec vLLM sur les GPU Clore.ai

Serveur d'inférence LLM à haut débit pour charges de production sur les GPU CLORE.AI.

circle-check
circle-info

Version actuelle : v0.7.x — Ce guide couvre vLLM v0.7.3+. Les nouvelles fonctionnalités incluent la prise en charge de DeepSeek-R1, des sorties structurées avec choix automatique d'outil, le service multi-LoRA et une meilleure efficacité mémoire.

Exigences du serveur

Paramètre
Minimum
Recommandé

RAM

16Go

32 Go+

VRAM

16 Go (7B)

24 Go+

Réseau

500 Mbps

1 Gbps+

Temps de démarrage

5-15 minutes

-

triangle-exclamation
circle-exclamation

Pourquoi vLLM ?

  • Débit le plus rapide - PagedAttention pour un débit 24x supérieur

  • Prêt pour la production - API compatible OpenAI prête à l'emploi

  • Regroupement continu - Service multi-utilisateurs efficace

  • Streaming - Génération de tokens en temps réel

  • Multi-GPU - Parallélisme tensoriel pour les grands modèles

  • Multi-LoRA - Servir plusieurs adaptateurs fine-tunés simultanément (v0.7+)

  • Sorties structurées - Application de schéma JSON et appel d'outils (v0.7+)

Déploiement rapide sur CLORE.AI

Image Docker :

Ports :

Commande :

Vérifiez que cela fonctionne

Après le déploiement, trouvez votre http_pub URL dans Mes commandes:

circle-exclamation

Accéder à votre service

Lorsqu'il est déployé sur CLORE.AI, accédez à vLLM via le http_pub URL :

circle-info

Tous localhost:8000 les exemples ci-dessous fonctionnent lorsqu'ils sont connectés via SSH. Pour un accès externe, remplacez par votre https://your-http-pub.clorecloud.net/ URL.

Installation

Utilisation de Docker (recommandé)

Utilisation de pip

Modèles pris en charge

Modèle
Paramètres
VRAM requise
RAM requise

Mistral 7B

7B

14GB

16 Go+

Llama 3.1 8B

8B

16Go

16 Go+

Llama 3.1 70B

70B

140 Go (ou 2x80 Go)

64 Go+

Mixtral 8x7B

47B

90 Go

32 Go+

Qwen2.5 7B

7B

14GB

16 Go+

Qwen2.5 72B

72B

145 Go

64 Go+

DeepSeek-V3

236B MoE

Multi-GPU

128 Go+

DeepSeek-R1-Distill-Qwen-7B

7B

14GB

16 Go+

DeepSeek-R1-Distill-Qwen-32B

32B

64Go

32 Go+

DeepSeek-R1-Distill-Llama-70B

70B

140 Go

64 Go+

Phi-4

14B

28 Go

32 Go+

Gemma 2 9B

9B

18Go

16 Go+

CodeLlama 34B

34B

68 Go

32 Go+

Options du serveur

Serveur basique

Serveur de production

Avec quantification (moins de VRAM)

Sorties structurées et appels d'outils (v0.7+)

Activer le choix automatique d'outil et les sorties JSON structurées :

Utilisation en Python :

Sortie JSON structurée via response_format :

Service Multi-LoRA (v0.7+)

Servir un modèle de base avec plusieurs adaptateurs LoRA simultanément :

Interroger un adaptateur LoRA spécifique par nom de modèle :

Prise en charge DeepSeek-R1 (v0.7+)

vLLM v0.7+ prend en charge nativement les modèles distillés DeepSeek-R1. Ces modèles de raisonnement produisent <think> des balises montrant leur processus de raisonnement.

DeepSeek-R1-Distill-Qwen-7B (GPU unique)

DeepSeek-R1-Distill-Qwen-32B (GPU double)

DeepSeek-R1-Distill-Llama-70B (Quad GPU)

Interroger DeepSeek-R1

Analyse des balises think :

Utilisation de l'API

Chat Completions (compatible OpenAI)

Streaming

cURL

Complétions de texte

Référence complète de l'API

vLLM fournit des endpoints compatibles OpenAI ainsi que des endpoints utilitaires supplémentaires.

Points de terminaison standard

Point de terminaison
Méthode
Description

/v1/models

GET

Lister les modèles disponibles

/v1/chat/completions

POST

Complétion de chat

/v1/completions

POST

Complétion de texte

/health

GET

Vérification de l'état (peut renvoyer vide)

Points de terminaison supplémentaires

Point de terminaison
Méthode
Description

/tokenize

POST

Tokenizer le texte

/detokenize

POST

Convertir les tokens en texte

/version

GET

Obtenir la version de vLLM

/docs

GET

Documentation Swagger UI

/metrics

GET

Métriques Prometheus

Tokenizer du texte

Utile pour compter les tokens avant d'envoyer des requêtes :

Réponse :

Dé-tokenisation

Convertir les IDs de tokens en texte :

Réponse :

Obtenir la version

Réponse :

Documentation Swagger

Ouvrez dans le navigateur pour une documentation API interactive :

Metrics Prometheus

Pour la surveillance :

circle-info

Modèles de raisonnement : DeepSeek-R1 et des modèles similaires incluent <think> des balises dans les réponses montrant le processus de raisonnement du modèle avant la réponse finale.

Benchmarks

Débit (tokens/sec par utilisateur)

Modèle
RTX 3090
RTX 4090
A100 40GB
A100 80GB

Mistral 7B

100

170

210

230

Llama 3.1 8B

95

150

200

220

Llama 3.1 8B (AWQ)

130

190

260

280

Mixtral 8x7B

-

45

70

85

Llama 3.1 70B

-

-

25 (2x)

45 (2x)

DeepSeek-R1 7B

90

145

190

210

DeepSeek-R1 32B

-

-

40

70 (2x)

Benchmarks mis à jour en janvier 2026.

Longueur de contexte vs VRAM

Modèle
Contexte 4K
Contexte 8K
Contexte 16K
Contexte 32K

8B FP16

18Go

22Go

30Go

46 Go

8B AWQ

8 Go

10Go

14GB

22Go

70B FP16

145 Go

160Go

190 Go

250Go

70B AWQ

42GB

50GB

66 Go

98 Go

Authentification Hugging Face

Pour les modèles restreints (Llama, etc.) :

Ou définir comme variable d'environnement :

Exigences GPU

Modèle
VRAM min
RAM min
Recommandé

7-8B

16Go

16Go

24 Go VRAM, 32 Go RAM

13B

26 Go

32Go

40 Go VRAM

34B

70Go

32Go

80 Go VRAM

70B

140 Go

64Go

2x80 Go

Estimation des coûts

Tarifs typiques du marketplace CLORE.AI :

GPU
VRAM
Prix/jour
Idéal pour

RTX 3090

24 Go

0,30–1,00 $

Modèles 7-8B

RTX 4090

24 Go

0,50–2,00 $

7-13B, rapide

A100

40Go

1,50–3,00 $

Modèles 13-34B

A100

80Go

2,00–4,00 $

Modèles 34-70B

Prix en USD/jour. Les tarifs varient selon le fournisseur — vérifiez CLORE.AI Marketplacearrow-up-right pour les tarifs actuels.

Dépannage

HTTP 502 pendant longtemps

  1. Vérifier la RAM : Le serveur doit avoir 16 Go+ de RAM

  2. Vérifier la VRAM : Doit correspondre au modèle

  3. Téléchargement du modèle : Le premier lancement télécharge depuis HuggingFace (5-15 min)

  4. Token HF : Les modèles restreints nécessitent une authentification

Mémoire insuffisante

Échec du téléchargement du modèle

vLLM vs autres

Fonction
vLLM
llama.cpp
composant Ollama

Débit

Meilleur

Bon

Bon

Utilisation VRAM

Élevé

Faible

Moyen

Facilité d'utilisation

Moyen

Moyen

Facile

Temps de démarrage

5-15 min

1-2 min

30 s

Multi-GPU

Natif

Limité

Limité

Appel d'outils

Oui (v0.7+)

Limité

Limité

Multi-LoRA

Oui (v0.7+)

Non

Non

Utiliser vLLM quand :

  • Le haut débit est prioritaire

  • Servir plusieurs utilisateurs

  • Disposer de suffisamment de VRAM et de RAM

  • Déploiement en production

  • Besoin d'appels d'outils / sorties structurées

Utiliser Ollama quand :

  • Configuration rapide nécessaire

  • Utilisateur unique

  • Moins de ressources disponibles

Prochaines étapes

Mis à jour

Ce contenu vous a-t-il été utile ?