ONNX Runtime GPU

Plattformübergreifende, hardwarebeschleunigte ML-Inferenz — beliebiges Modell aus jedem Framework bereitstellen

ONNX Runtime (ORT) ist Microsofts quelloffene Inferenz-Engine für ONNX (Open Neural Network Exchange)-Modelle. Sie bietet hardwarebeschleunigte Inferenz über CPUs, GPUs und spezialisierte Beschleuniger durch eine einheitliche API. Unabhängig davon, ob Ihr Modell in PyTorch, TensorFlow, Scikit-learn oder XGBoost trainiert wurde — wenn Sie es in das ONNX-Format exportieren können, kann ORT es schneller ausführen.

GitHub: microsoft/onnxruntimearrow-up-right — 14K+ ⭐


Warum ONNX Runtime?

Funktion
ONNX Runtime
TorchScript
TensorFlow Serving

Framework-unabhängig

❌ Nur PyTorch

❌ Nur TF

GPU-Beschleunigung

✅ CUDA/TensorRT

INT8/FP16-Quantisierung

Teilweise

Teilweise

Mobile/Edge-Bereitstellung

Begrenzt

Begrenzt

Operator-Fusion

Teilweise

Einfache Integration

✅ Python/C++/Java

Python

Python/gRPC

circle-check

Unterstützte Ausführungsanbieter

ONNX Runtime unterstützt mehrere Hardware-Backends (Execution Providers):

Anbieter
Hardware
Anwendungsfall

CUDAExecutionProvider

NVIDIA-GPUs

Allgemeine GPU-Inferenz

TensorrtExecutionProvider

NVIDIA-GPUs

Maximaler Durchsatz

CPUExecutionProvider

CPU

Fallback / Edge

ROCMExecutionProvider

AMD-GPUs

AMD-Hardware

CoreMLExecutionProvider

Apple Silicon

macOS/iOS

OpenVINOExecutionProvider

Intel

Intel-CPUs/GPUs


Voraussetzungen

  • Clore.ai-Konto mit GPU-Vermietung

  • Grundkenntnisse in Python

  • Ein trainiertes Modell (PyTorch, TensorFlow oder bereits nach ONNX exportiert)


Schritt 1 — Mieten Sie eine GPU auf Clore.ai

  1. Gehe zu clore.aiarrow-up-rightMarktplatz

  2. Jede NVIDIA-GPU funktioniert — von RTX 3070 für kleine Modelle bis A100 für große Transformer

  3. Für Transformermodelle: RTX 4090 oder A100 empfohlen

  4. Für Computer Vision: RTX 3090 oder RTX 4090 ist ausreichend


Schritt 2 — Bereitstellen Ihres Containers

ONNX Runtime hat keinen offiziellen vorgefertigten Container, aber die NVIDIA CUDA-Basis ist ideal:

Docker-Image:

Ports:

Umgebungsvariablen:

circle-info

Alternativ verwenden Sie pytorch/pytorch:2.1.0-cuda12.1-cudnn8-runtime welches CUDA und eine Python-Umgebung enthält, die für die ORT-Installation bereit ist.


Schritt 3 — ONNX Runtime mit GPU-Unterstützung installieren


Schritt 4 — Exportieren Sie Ihr Modell nach ONNX

PyTorch-Modell-Export

HuggingFace Transformers Export

Export mit ORT-Optimierung


Schritt 5 — Inferenz mit ONNX Runtime ausführen

Basis-GPU-Inferenz

Batch-Inferenz für Durchsatz


Schritt 6 — TensorRT-Ausführungsanbieter (Maximale Leistung)

Für NVIDIA-GPUs bietet der TensorRT-EP noch bessere Leistung:

circle-exclamation

Schritt 7 — INT8-Quantisierung für maximale Geschwindigkeit


Schritt 8 — Erstellen einer Inferenz-API


Schritt 9 — GPU-Auslastung überwachen


Leistungs-Benchmarks

Modell
GPU
Anbieter
Durchsatz (inf/sec)

ResNet50

RTX 4090

CUDA

~4,200

ResNet50

RTX 4090

TensorRT FP16

~8,500

BERT Base

RTX 4090

CUDA

~380

BERT Base

RTX 4090

TensorRT FP16

~720

YOLOv8n

RTX 3090

CUDA

~1,800

YOLOv8x

A100

TensorRT FP16

~920


Fehlerbehebung

CUDA-Anbieter nicht verfügbar

TensorRT-Kompilierungsfehler

Shape-Mismatch-Fehler


Fortgeschritten: Multi-Model-Pipeline


Weitere Ressourcen


ONNX Runtime auf Clore.ai ist die ideale Wahl für produktive Inferenzdienste, die Modelle aus verschiedenen Frameworks mit maximaler GPU-Effizienz bereitstellen müssen.


Clore.ai GPU-Empfehlungen

Anwendungsfall
Empfohlene GPU
Geschätzte Kosten auf Clore.ai

Entwicklung/Tests

RTX 3090 (24GB)

~$0.12/gpu/hr

Produktions-Inferenz

RTX 4090 (24GB)

~$0.70/gpu/hr

Großflächige Bereitstellung

A100 80GB

~$1.20/gpu/hr

💡 Alle Beispiele in diesem Leitfaden können bereitgestellt werden auf Clore.aiarrow-up-right GPU-Servern. Durchsuchen Sie verfügbare GPUs und mieten Sie stundenweise — keine Verpflichtungen, voller Root-Zugriff.

Zuletzt aktualisiert

War das hilfreich?