TensorRT-LLM
Pourquoi TensorRT-LLM ?
Fonctionnalité
vLLM
TensorRT-LLM
Prérequis
Exigences de VRAM par modèle
Modèle
FP16
INT8
INT4
Étape 1 — Choisissez votre GPU sur Clore.ai
Étape 2 — Déployez Triton Inference Server avec le backend TRT-LLM
Étape 3 — Connectez-vous et vérifiez l'installation
Étape 4 — Télécharger et préparer le modèle
Installer HuggingFace CLI
Télécharger les poids du modèle
Étape 5 — Construire le moteur TensorRT
Moteur FP16 (Meilleure qualité)
Moteur INT8 SmoothQuant (Débit supérieur)
Moteur INT4 AWQ (Débit maximal / Mémoire minimale)
Étape 6 — Test rapide avec l'API Python TRT-LLM
Étape 7 — Configurer Triton Inference Server
Créer la structure du dépôt de modèles
Créer un lien symbolique vers le moteur
Démarrer le serveur Triton
Étape 8 — Interroger l'API
Client compatible OpenAI
Mesurer le débit
Étape 9 — Ajouter un wrapper d'API compatible OpenAI
Dépannage
OOM lors de la construction du moteur
Triton Server ne démarre pas
Faible débit
Benchmarks de performance sur les GPU Clore.ai
Modèle
GPU
Quantification
Débit (tokens/sec)
Ressources supplémentaires
Recommandations GPU Clore.ai
Cas d’utilisation
GPU recommandé
Coût estimé sur Clore.ai
Mis à jour
Ce contenu vous a-t-il été utile ?