TensorRT-LLM

Maximaler LLM-Inferenzdurchsatz mit NVIDIA TensorRT-Optimierung — bereitgestellt über Triton Inference Server

TensorRT-LLM ist NVIDIAs Open-Source-Bibliothek zur Optimierung der Inferenz von Large Language Models auf NVIDIA-GPUs. Sie liefert erstklassige Leistung durch Kernel-Fusion, Quantisierung (INT4, INT8, FP8), In-Flight-Batching und paged KV-Caching. In Kombination mit Triton Inference Server erhalten Sie eine produktionsreife Serving-Infrastruktur.

GitHub: NVIDIA/TensorRT-LLMarrow-up-right — 10K+ ⭐


Warum TensorRT-LLM?

Funktion
vLLM
TensorRT-LLM

Durchsatz

Ausgezeichnet

Best in class

Latenz

Gut

Ausgezeichnet

INT4/INT8-Quantisierung

Teilweise

Native

FP8-Unterstützung

Begrenzt

Vollständig

Multi-GPU Tensor-Parallelität

Ja

Ja

Einrichtungsaufwand

Niedrig

Mittel–Hoch

circle-check

Voraussetzungen

  • Clore.ai-Konto mit GPU-Vermietung

  • NVIDIA-GPU mit Ampere-Architektur oder neuer (RTX 3090, A100, RTX 4090, H100)

  • Grundlegende Linux- und Docker-Kenntnisse

  • Ausreichend VRAM für Ihr gewähltes Modell


VRAM-Anforderungen nach Modell

Modell
FP16
INT8
INT4

Llama-3.1 8B

16GB

8GB

4GB

Llama-3.1 70B

140GB

70GB

35GB

Mistral 7B

14GB

7GB

4GB

Mixtral 8x7B

90GB

45GB

24GB

Qwen2.5 72B

144GB

72GB

36GB


Schritt 1 — Wählen Sie Ihre GPU auf Clore.ai

  1. Melden Sie sich an bei clore.aiarrow-up-rightMarktplatz

  2. Für Single-GPU-Serving (7B–13B-Modelle): RTX 4090 24GB oder RTX 3090 24GB

  3. Für große Modelle (70B+): Mehrere A100 80GB oder H100

circle-info

Multi-GPU-Strategie:

  • 2x A100 80GB → Llama 3.1 70B in FP16 oder Qwen2.5 72B

  • 4x A100 80GB → Llama 3.1 405B in INT8

  • Wählen Sie Server mit mehreren aufgeführten GPUs im Clore.ai-Marktplatz


Schritt 2 — Deployen Sie Triton Inference Server mit TRT-LLM-Backend

Docker-Image:

circle-exclamation

Offengelegte Ports:

Umgebungsvariablen:

Volume/Festplatte: Mindestens 100GB empfohlen


Schritt 3 — Verbinden und Installation verifizieren


Schritt 4 — Modell herunterladen und vorbereiten

Wir verwenden Llama 3.1 8B als Beispiel. Passen Sie Pfade für Ihr gewähltes Modell an.

Installieren Sie HuggingFace CLI

Modellgewichte herunterladen


Schritt 5 — TensorRT-Engine bauen

Dies ist der entscheidende Schritt — das Kompilieren des Modells zu einer optimierten TensorRT-Engine.

FP16-Engine (Beste Qualität)

INT8 SmoothQuant-Engine (Höherer Durchsatz)

INT4 AWQ-Engine (Maximaler Durchsatz / Minimale Speicheranforderung)

circle-info

Build-Zeit der Engine: 10–30 Minuten je nach GPU und Modellgröße. Dies ist ein einmaliger Vorgang — einmal gebaut, lädt die Engine in Sekunden.


Schritt 6 — Kurzer Test mit der TRT-LLM Python-API

Überprüfen Sie vor dem Einrichten von Triton, ob die Engine funktioniert:


Schritt 7 — Triton Inference Server einrichten

Modell-Repository-Struktur erstellen

Triton Server starten


Schritt 8 — Die API abfragen

OpenAI-kompatibler Client

Benchmark-Durchsatz


Schritt 9 — OpenAI-kompatible API-Wrapper hinzufügen

Zur einfacheren Integration fügen Sie einen FastAPI-Wrapper hinzu:


Fehlerbehebung

Engine-Build OOM

Triton-Server startet nicht

Niedriger Durchsatz


Performance-Benchmarks auf Clore.ai-GPUs

Modell
GPU
Quantisierung
Durchsatz (Tokens/Sekunde)

Llama 3.1 8B

RTX 4090

FP16

~3,500

Llama 3.1 8B

RTX 4090

INT4 AWQ

~6,200

Llama 3.1 70B

2x A100 80G

FP16

~1,800

Mixtral 8x7B

2x RTX 4090

INT8

~2,400


Weitere Ressourcen


TensorRT-LLM auf Clore.ai ist die optimale Wahl für produktives LLM-Serving, wenn Durchsatz und Latenz kritisch sind. Für einfachere Setups ziehen Sie den vLLM-Leitfaden in Betracht.


Clore.ai GPU-Empfehlungen

Anwendungsfall
Empfohlene GPU
Geschätzte Kosten auf Clore.ai

Entwicklung/Tests

RTX 3090 (24GB)

~$0.12/gpu/hr

Produktions-Inferenz

RTX 4090 (24GB)

~$0.70/gpu/hr

Große Modelle (70B+)

A100 80GB

~$1.20/gpu/hr

💡 Alle Beispiele in diesem Leitfaden können bereitgestellt werden auf Clore.aiarrow-up-right GPU-Servern. Durchsuchen Sie verfügbare GPUs und mieten Sie stundenweise — keine Verpflichtungen, voller Root-Zugriff.

Zuletzt aktualisiert

War das hilfreich?