TensorRT-LLM
Warum TensorRT-LLM?
Funktion
vLLM
TensorRT-LLM
Voraussetzungen
VRAM-Anforderungen nach Modell
Modell
FP16
INT8
INT4
Schritt 1 — Wählen Sie Ihre GPU auf Clore.ai
Schritt 2 — Deployen Sie Triton Inference Server mit TRT-LLM-Backend
Schritt 3 — Verbinden und Installation verifizieren
Schritt 4 — Modell herunterladen und vorbereiten
Installieren Sie HuggingFace CLI
Modellgewichte herunterladen
Schritt 5 — TensorRT-Engine bauen
FP16-Engine (Beste Qualität)
INT8 SmoothQuant-Engine (Höherer Durchsatz)
INT4 AWQ-Engine (Maximaler Durchsatz / Minimale Speicheranforderung)
Schritt 6 — Kurzer Test mit der TRT-LLM Python-API
Schritt 7 — Triton Inference Server einrichten
Modell-Repository-Struktur erstellen
Engine-Symlink erstellen
Triton Server starten
Schritt 8 — Die API abfragen
OpenAI-kompatibler Client
Benchmark-Durchsatz
Schritt 9 — OpenAI-kompatible API-Wrapper hinzufügen
Fehlerbehebung
Engine-Build OOM
Triton-Server startet nicht
Niedriger Durchsatz
Performance-Benchmarks auf Clore.ai-GPUs
Modell
GPU
Quantisierung
Durchsatz (Tokens/Sekunde)
Weitere Ressourcen
Clore.ai GPU-Empfehlungen
Anwendungsfall
Empfohlene GPU
Geschätzte Kosten auf Clore.ai
Zuletzt aktualisiert
War das hilfreich?