TensorRT-LLM

Débit maximal d'inférence LLM avec optimisation NVIDIA TensorRT — déployé via Triton Inference Server

TensorRT-LLM est la bibliothèque open-source de NVIDIA pour optimiser l'inférence des grands modèles de langage sur les GPU NVIDIA. Elle offre des performances de pointe grâce à la fusion de noyaux, la quantification (INT4, INT8, FP8), le batching en vol et la mise en cache KV paginée. Combinée avec Triton Inference Server, vous obtenez une infrastructure de service prête pour la production.

GitHub : NVIDIA/TensorRT-LLMarrow-up-right — 10K+ ⭐


Pourquoi TensorRT-LLM ?

Fonctionnalité
vLLM
TensorRT-LLM

Débit

Excellente

Meilleur de sa catégorie

Latence

Bonne

Excellente

Quantification INT4/INT8

Partiel

Support natif

Prise en charge FP8

Limité

Complet

Parallélisme tensoriel multi-GPU

Oui

Oui

Complexité de configuration

Faible

Moyenne-Élevée

circle-check

Prérequis

  • Compte Clore.ai avec location de GPU

  • GPU NVIDIA avec architecture Ampere ou plus récente (RTX 3090, A100, RTX 4090, H100)

  • Connaissances de base en Linux et Docker

  • VRAM suffisante pour le modèle choisi


Exigences de VRAM par modèle

Modèle
FP16
INT8
INT4

Llama-3.1 8B

16GB

8 Go

4 Go

Llama-3.1 70B

140 Go

70GB

35 Go

Mistral 7B

14 Go

7 Go

4 Go

Mixtral 8x7B

90 Go

45 Go

24GB

Qwen2.5 72B

144 Go

72GB

36 Go


Étape 1 — Choisissez votre GPU sur Clore.ai

  1. Connectez-vous à clore.aiarrow-up-rightPlace de marché

  2. Pour le service sur GPU unique (modèles 7B–13B) : RTX 4090 24GB ou RTX 3090 24GB

  3. Pour les gros modèles (70B+) : Plusieurs A100 80GB ou H100

circle-info

Stratégie multi-GPU :

  • 2x A100 80GB → Llama 3.1 70B en FP16 ou Qwen2.5 72B

  • 4x A100 80GB → Llama 3.1 405B en INT8

  • Sélectionnez des serveurs avec plusieurs GPU listés sur la marketplace Clore.ai


Étape 2 — Déployez Triton Inference Server avec le backend TRT-LLM

Image Docker :

circle-exclamation

Ports exposés :

Variables d’environnement :

Volume/Disque : 100 Go minimum recommandé


Étape 3 — Connectez-vous et vérifiez l'installation


Étape 4 — Télécharger et préparer le modèle

Nous utiliserons Llama 3.1 8B comme exemple. Ajustez les chemins pour le modèle choisi.

Installer HuggingFace CLI

Télécharger les poids du modèle


Étape 5 — Construire le moteur TensorRT

C'est l'étape clé — compiler le modèle en un moteur TensorRT optimisé.

Moteur FP16 (Meilleure qualité)

Moteur INT8 SmoothQuant (Débit supérieur)

Moteur INT4 AWQ (Débit maximal / Mémoire minimale)

circle-info

Temps de construction du moteur : 10–30 minutes selon le GPU et la taille du modèle. Il s'agit d'une opération unique — une fois construit, le moteur se charge en quelques secondes.


Étape 6 — Test rapide avec l'API Python TRT-LLM

Avant de configurer Triton, vérifiez que le moteur fonctionne :


Étape 7 — Configurer Triton Inference Server

Créer la structure du dépôt de modèles

Créer un lien symbolique vers le moteur

Démarrer le serveur Triton


Étape 8 — Interroger l'API

Client compatible OpenAI

Mesurer le débit


Étape 9 — Ajouter un wrapper d'API compatible OpenAI

Pour une intégration plus facile, ajoutez un wrapper FastAPI :


Dépannage

OOM lors de la construction du moteur

Triton Server ne démarre pas

Faible débit


Benchmarks de performance sur les GPU Clore.ai

Modèle
GPU
Quantification
Débit (tokens/sec)

Llama 3.1 8B

RTX 4090

FP16

~3,500

Llama 3.1 8B

RTX 4090

INT4 AWQ

~6,200

Llama 3.1 70B

2x A100 80G

FP16

~1,800

Mixtral 8x7B

2x RTX 4090

INT8

~2,400


Ressources supplémentaires


TensorRT-LLM sur Clore.ai est le choix optimal pour le déploiement en production des LLM lorsque le débit et la latence sont critiques. Pour des configurations plus simples, considérez le guide vLLM.


Recommandations GPU Clore.ai

Cas d’utilisation
GPU recommandé
Coût estimé sur Clore.ai

Développement/Test

RTX 3090 (24GB)

~$0.12/gpu/hr

Inférence en production

RTX 4090 (24GB)

~$0.70/gpu/hr

Grands modèles (70B+)

A100 80GB

~$1.20/gpu/hr

💡 Tous les exemples de ce guide peuvent être déployés sur Clore.aiarrow-up-right serveurs GPU. Parcourez les GPU disponibles et louez à l’heure — sans engagement, avec accès root complet.

Mis à jour

Ce contenu vous a-t-il été utile ?