ONNX Runtime GPU

Inférence ML multiplateforme accélérée par le matériel — déployez n'importe quel modèle depuis n'importe quel framework

ONNX Runtime (ORT) est le moteur d'inférence open source de Microsoft pour les modèles ONNX (Open Neural Network Exchange). Il fournit une inférence accélérée par le matériel sur les CPU, GPU et accélérateurs spécialisés via une API unifiée. Que votre modèle ait été entraîné avec PyTorch, TensorFlow, Scikit-learn ou XGBoost — si vous pouvez l'exporter au format ONNX, ORT peut l'exécuter plus rapidement.

GitHub : microsoft/onnxruntimearrow-up-right — 14K+ ⭐


Pourquoi ONNX Runtime ?

Fonctionnalité
ONNX Runtime
TorchScript
TensorFlow Serving

Agnostique au framework

❌ uniquement PyTorch

❌ uniquement TF

Accélération GPU

✅ CUDA/TensorRT

Quantification INT8/FP16

Partiel

Partiel

Déploiement mobile/périphérie

Limité

Limité

Fusion d'opérateurs

Partiel

Intégration facile

✅ Python/C++/Java

Python

Python/gRPC

circle-check

Fournisseurs d'exécution pris en charge

ONNX Runtime prend en charge plusieurs backends matériels (Fournisseurs d'exécution) :

Fournisseur
Matériel
Cas d’utilisation

CUDAExecutionProvider

GPU NVIDIA

Inférence GPU générale

TensorrtExecutionProvider

GPU NVIDIA

Débit maximal

CPUExecutionProvider

CPU

Repli / périphérie

ROCMExecutionProvider

GPU AMD

Matériel AMD

CoreMLExecutionProvider

Apple Silicon

macOS/iOS

OpenVINOExecutionProvider

Intel

CPU/GPU Intel


Prérequis

  • Compte Clore.ai avec location de GPU

  • Connaissances Python de base

  • Un modèle entraîné (PyTorch, TensorFlow ou ONNX pré-exporté)


Étape 1 — Louez un GPU sur Clore.ai

  1. Aller à clore.aiarrow-up-rightPlace de marché

  2. N'importe quel GPU NVIDIA convient — de la RTX 3070 pour les petits modèles à l'A100 pour les grands transformeurs

  3. Pour les modèles de type transformer : RTX 4090 ou A100 recommandés

  4. Pour la vision par ordinateur : RTX 3090 ou RTX 4090 suffisent


Étape 2 — Déployez votre conteneur

ONNX Runtime n'a pas de conteneur pré-construit officiel, mais la base NVIDIA CUDA est idéale :

Image Docker :

Ports :

Variables d’environnement :

circle-info

Alternativement, utilisez pytorch/pytorch:2.1.0-cuda12.1-cudnn8-runtime qui inclut CUDA et un environnement Python prêt pour l'installation d'ORT.


Étape 3 — Installez ONNX Runtime avec le support GPU


Étape 4 — Exportez votre modèle en ONNX

Exportation de modèle PyTorch

Exportation HuggingFace Transformers

Exporter avec l'optimisation ORT


Étape 5 — Exécuter l'inférence avec ONNX Runtime

Inférence GPU basique

Inférence par lots pour le débit


Étape 6 — Fournisseur d'exécution TensorRT (performance maximale)

Pour les GPU NVIDIA, le fournisseur TensorRT offre des performances encore meilleures :

circle-exclamation

Étape 7 — Quantification INT8 pour une vitesse maximale


Étape 8 — Construire une API d'inférence


Étape 9 — Surveiller l'utilisation GPU


Benchmarks de performance

Modèle
GPU
Fournisseur
Débit (inf/sec)

ResNet50

RTX 4090

CUDA

~4,200

ResNet50

RTX 4090

TensorRT FP16

~8,500

BERT Base

RTX 4090

CUDA

~380

BERT Base

RTX 4090

TensorRT FP16

~720

YOLOv8n

RTX 3090

CUDA

~1,800

YOLOv8x

A100

TensorRT FP16

~920


Dépannage

Fournisseur CUDA non disponible

Erreurs de compilation TensorRT

Erreurs de mismatch de shape


Avancé : Pipeline multi-modèles


Ressources supplémentaires


ONNX Runtime sur Clore.ai est le choix idéal pour les services d'inférence en production qui doivent servir des modèles provenant de différents frameworks avec une efficacité GPU maximale.


Recommandations GPU Clore.ai

Cas d’utilisation
GPU recommandé
Coût estimé sur Clore.ai

Développement/Test

RTX 3090 (24GB)

~$0.12/gpu/hr

Inférence en production

RTX 4090 (24GB)

~$0.70/gpu/hr

Déploiement à grande échelle

A100 80GB

~$1.20/gpu/hr

💡 Tous les exemples de ce guide peuvent être déployés sur Clore.aiarrow-up-right serveurs GPU. Parcourez les GPU disponibles et louez à l’heure — sans engagement, avec accès root complet.

Mis à jour

Ce contenu vous a-t-il été utile ?