ONNX Runtime GPU
Pourquoi ONNX Runtime ?
Fonctionnalité
ONNX Runtime
TorchScript
TensorFlow Serving
Fournisseurs d'exécution pris en charge
Fournisseur
Matériel
Cas d’utilisation
Prérequis
Étape 1 — Louez un GPU sur Clore.ai
Étape 2 — Déployez votre conteneur
Étape 3 — Installez ONNX Runtime avec le support GPU
Étape 4 — Exportez votre modèle en ONNX
Exportation de modèle PyTorch
Exportation HuggingFace Transformers
Exporter avec l'optimisation ORT
Étape 5 — Exécuter l'inférence avec ONNX Runtime
Inférence GPU basique
Inférence par lots pour le débit
Étape 6 — Fournisseur d'exécution TensorRT (performance maximale)
Étape 7 — Quantification INT8 pour une vitesse maximale
Étape 8 — Construire une API d'inférence
Étape 9 — Surveiller l'utilisation GPU
Benchmarks de performance
Modèle
GPU
Fournisseur
Débit (inf/sec)
Dépannage
Fournisseur CUDA non disponible
Erreurs de compilation TensorRT
Erreurs de mismatch de shape
Avancé : Pipeline multi-modèles
Ressources supplémentaires
Recommandations GPU Clore.ai
Cas d’utilisation
GPU recommandé
Coût estimé sur Clore.ai
Mis à jour
Ce contenu vous a-t-il été utile ?