Triton Inference Server

NVIDIA Triton Inference Server est une plateforme d'inférence open-source de qualité production qui prend en charge pratiquement tous les principaux frameworks ML. Conçue pour un service à haut débit et faible latence, Triton gère PyTorch, TensorFlow, ONNX, TensorRT, OpenVINO, et plus encore — le tout depuis un seul processus serveur. Déployez-le sur le cloud GPU de Clore.ai pour une infrastructure d'inférence évolutive et rentable.


Qu'est-ce que Triton Inference Server ?

Triton est la réponse de NVIDIA au défi de servir des modèles ML à grande échelle :

  • Multi-framework : PyTorch, TensorFlow, TensorRT, ONNX, OpenVINO, backends personnalisés en Python

  • Exécution concurrente : Plusieurs modèles, plusieurs instances par GPU

  • Regroupement dynamique (dynamic batching) : Regroupe automatiquement les requêtes pour un meilleur débit

  • gRPC + HTTP : Protocoles standards du secteur prêts à l'emploi

  • Métriques : Point de terminaison de métriques compatible Prometheus

  • Répertoire de modèles : Gestion des modèles basée sur le système de fichiers

Ports utilisés :

Port
Protocole
Usage

8000

HTTP

API d'inférence REST

8001

gRPC

API d'inférence gRPC

8002

HTTP

Métriques Prometheus


Prérequis

Exigence
Minimum
Recommandé

VRAM GPU

8 Go

16–24 Go

GPU

N'importe quelle NVIDIA avec CUDA 11+

RTX 4090 / A100

RAM

16 Go

32 Go

Stockage

20 Go

50 Go

circle-info

Triton prend aussi en charge l'inférence CPU uniquement pour les charges non-CUDA. Utilisez la cpu-only variante de l'image Docker pour des économies sur les tâches en lot qui ne nécessitent pas de GPU.


Étape 1 — Louez un GPU sur Clore.ai

  1. Connectez-vous à clore.aiarrow-up-right.

  2. Cliquez Place de marché et filtrez par VRAM ≥ 16 Go.

  3. Sélectionnez un serveur et cliquez sur Configurer.

  4. Définir l'image Docker : nvcr.io/nvidia/tritonserver:24.01-py3

  5. Définir les ports ouverts : 22 (SSH), 8000 (HTTP), 8001 (gRPC), 8002 (métriques).

  6. Cliquez Louez.

circle-exclamation

Étape 2 — Dockerfile personnalisé (avec SSH)

L'image officielle Triton n'inclut pas de serveur SSH. Utilisez ce Dockerfile :


Étape 3 — Comprendre le répertoire de modèles

Triton charge les modèles à partir d'un répertoire de modèles — un répertoire avec une structure spécifique :

Chaque modèle nécessite :

  1. Un répertoire portant le nom du modèle

  2. Un config.pbtxt fichier de configuration

  3. Au moins un sous-répertoire de version (par ex., 1/) contenant le fichier du modèle


Étape 4 — Déployer un modèle PyTorch

Exporter le modèle en TorchScript

Configurer le répertoire de modèles

Créer config.pbtxt


Étape 5 — Déployer un modèle ONNX

Exporter en ONNX

Configuration ONNX


Étape 6 — Déployer un backend Python personnalisé

Pour les modèles qui ne conviennent pas aux backends standards (prétraitement personnalisé, logique d'ensemble) :


Étape 7 — Démarrer Triton et tester

Démarrer le serveur Triton

Vérifier les modèles disponibles

Exécuter une inférence via HTTP

Exécuter une inférence via gRPC


Monitoring avec Prometheus

Triton expose des métriques sur le port 8002 :

Métriques clés :


Configuration du regroupement dynamique


Dépannage

Échec du chargement du modèle

Solution : Vérifiez la structure des répertoires et les permissions :

Incompatibilité CUDA

Solution : Faites correspondre la version de l'image Triton à votre pilote CUDA :

Port non accessible

Solution : Vérifiez que les trois ports (8000, 8001, 8002) sont bien redirigés sur Clore.ai. Testez chacun :

OOM lors du chargement du modèle

Solution : Réduisez le nombre d'instances ou utilisez des instances CPU pour certains modèles :


Estimation des coûts

GPU
VRAM
Prix estimé
Débit (ResNet50)

RTX 3080

10 Go

~0,10 $/h

~500 req/s

RTX 4090

24 Go

~0,35 $/h

~1500 req/s

A100 40GB

40 Go

~0,80 $/h

~3000 req/s

H100

80 Go

~2,50 $/h

~8000 req/s


Ressources utiles


Recommandations GPU Clore.ai

Cas d’utilisation
GPU recommandé
Coût estimé sur Clore.ai

Développement/Test

RTX 3090 (24GB)

~$0.12/gpu/hr

Inférence en production

RTX 4090 (24GB)

~$0.70/gpu/hr

Grands modèles (70B+)

A100 80GB

~$1.20/gpu/hr

💡 Tous les exemples de ce guide peuvent être déployés sur Clore.aiarrow-up-right serveurs GPU. Parcourez les GPU disponibles et louez à l’heure — sans engagement, avec accès root complet.

Mis à jour

Ce contenu vous a-t-il été utile ?