TGI (Text Generation Inference)

HuggingFace Text Generation Inference (TGI) für produktive LLM-Bereitstellung auf Clore.ai-GPUs ausführen

Text Generation Inference (TGI) ist HuggingFaces produktionsreifes LLM-Serving-Framework, entwickelt für hohen Durchsatz und niedrige Latenz bei Inferenz. Es unterstützt Flash Attention 2, kontinuierliches Batching, PagedAttention und Tensor-Parallelismus Out-of-the-Box — und ist damit die bevorzugte Lösung zum Bereitstellen großer Sprachmodelle in großem Maßstab auf CLORE.AI GPU-Servern.

circle-check

Serveranforderungen

Parameter
Minimum
Empfohlen

RAM

16 GB

32 GB+

VRAM

8 GB

24 GB+

Festplatte

50 GB

200 GB+

GPU

Jede NVIDIA (Ampere+ für Flash Attention)

A100, H100, RTX 4090

circle-info

Flash Attention 2 erfordert die Ampere-Architektur oder neuer (RTX 3000+, A100, H100). Für ältere GPUs fällt TGI automatisch auf die Standard-Attention zurück.

Schnelle Bereitstellung auf CLORE.AI

Docker-Image: ghcr.io/huggingface/text-generation-inference:latest

Ports: 22/tcp, 8080/http

Umgebungsvariablen:

Variable
Beispiel
Beschreibung

MODEL_ID

mistralai/Mistral-7B-Instruct-v0.3

HuggingFace Modell-ID

HF_TOKEN

hf_xxx...

HuggingFace-Token (für geschützte Modelle)

NUM_SHARD

2

Anzahl der GPUs für Tensor-Parallelismus

MAX_INPUT_LENGTH

4096

Maximale Eingabe-Token

MAX_TOTAL_TOKENS

8192

Maximale Eingabe- + Ausgabe-Token

QUANTIZE

bitsandbytes-nf4

Quantisierungsmethode

Schritt-für-Schritt-Einrichtung

1. Mieten Sie einen GPU-Server auf CLORE.AI

Gehe zu CLORE.AI Marketplacearrow-up-right und filtere Server nach:

  • VRAM ≥ 24 GB für 7B-Modelle (volle Präzision)

  • VRAM ≥ 12 GB für 7B-Modelle (4-Bit-Quantisierung)

  • VRAM ≥ 80 GB für 70B-Modelle (volle Präzision, einzelne GPU)

2. Verbindung per SSH

Nachdem Ihre Bestellung bestätigt wurde, verbinden Sie sich mit Ihrem Server mithilfe der SSH-Daten aus Ihrem CLORE.AI-Dashboard:

Oder verwenden Sie das Web-Terminal aus Ihrem CLORE.AI-Bestellpanel.

3. Ziehen Sie das TGI-Docker-Image

4. Starten Sie TGI mit einem Modell

Einfacher Start (Mistral 7B):

Mit HuggingFace-Token (für geschützte Modelle wie Llama 3):

Mit 4-Bit-Quantisierung (für geringeren VRAM):

Multi-GPU Tensor-Parallelismus (für 70B-Modelle):

5. Überprüfen, ob der Server läuft

Erwartete Antwort: {"status":"ok"}

6. Zugriff über CLORE.AI HTTP-Proxy

In Ihrem CLORE.AI-Bestellpanel sehen Sie Ihre http_pub URL für Port 8080. Dies ermöglicht Browser-/API-Zugriff ohne SSH-Tunneling:


Beispielanwendungen

Beispiel 1: Einfache Textgenerierung

Beispiel 2: Chat-Completions (OpenAI-kompatibel)

TGI unterstützt das OpenAI-Format für Chat-Completions:

Beispiel 3: Streaming-Antwort

Beispiel 4: Python-Client

Beispiel 5: Batch-Anfragen


Konfiguration

Wichtige CLI-Parameter

Parameter
Standard
Beschreibung

--model-id

erforderlich

HuggingFace-Modell-ID oder lokaler Pfad

--num-shard

1

Anzahl der GPU-Shards (Tensor-Parallelismus)

--max-concurrent-requests

128

Maximale gleichzeitige Anfragen

--max-input-length

1024

Maximale Eingabe-Token-Länge

--max-total-tokens

2048

Maximale Eingabe- + Ausgabe-Token

--max-batch-total-tokens

auto

Maximale Token pro Batch

--quantize

keine

Quantisierung: bitsandbytes-nf4, gptq, awq

--dtype

auto

float16, bfloat16

--trust-remote-code

false

Erlaube benutzerdefinierten Modellcode

--port

80

Serverport

Verwendung eines lokalen Modells

Wenn Sie ein Modell lokal heruntergeladen haben:

AWQ-Quantisierung (Schneller als NF4)


Leistungs-Tipps

1. Flash Attention 2 aktivieren

Flash Attention 2 ist auf Ampere+-GPUs (RTX 3000+, A100, H100) automatisch aktiviert. Keine zusätzliche Konfiguration erforderlich.

2. Maximalen Batch-Size anpassen

Für Szenarien mit hohem Durchsatz erhöhen Sie die Batch-Größe:

3. Verwenden Sie bfloat16 auf Ampere+-GPUs

Dies ist numerisch stabiler als float16 und liefert auf modernen GPUs dieselbe Leistung.

4. Modelle vorab auf persistenter Speicherung herunterladen

Binden Sie dann den lokalen Pfad ein, um erneutes Herunterladen bei Neustarts zu vermeiden.

5. GPU-Speichermanagement

Für RTX 3090/4090 (24GB VRAM):

6. Spekulatives Decoding

Für schnellere Generierung mit kleineren Modellen als Entwurf:


Fehlerbehebung

Problem: "CUDA out of memory"

Lösung: Reduzieren Sie --max-total-tokens oder aktivieren Sie Quantisierung:

Problem: Modell-Download ist langsam

Lösung: Verwenden Sie einen HuggingFace-Mirror oder laden Sie vorab herunter:

Problem: Server über http_pub nicht erreichbar

Lösung: Stellen Sie sicher, dass Port 8080 korrekt gemappt ist. TGI hört intern auf Port 80, aber Sie mappen ihn extern auf 8080:

Problem: "trust_remote_code ist erforderlich"

Einige Modelle (z. B. Falcon, Phi) erfordern benutzerdefinierten Code:

Problem: Langsame erste Antwort

Die erste Anfrage löst das Laden des Modells in den VRAM aus. Das ist normal. Nachfolgende Anfragen sind schnell.

Problem: Container beendet sich sofort



Clore.ai GPU-Empfehlungen

Anwendungsfall
Empfohlene GPU
Geschätzte Kosten auf Clore.ai

Entwicklung/Tests

RTX 3090 (24GB)

~$0.12/gpu/hr

Produktion (7B–13B)

RTX 4090 (24GB)

~$0.70/gpu/hr

Große Modelle (70B+)

A100 80GB / H100

~$1.20/gpu/hr

💡 Alle Beispiele in diesem Leitfaden können bereitgestellt werden auf Clore.aiarrow-up-right GPU-Servern. Durchsuchen Sie verfügbare GPUs und mieten Sie stundenweise — keine Verpflichtungen, voller Root-Zugriff.

Zuletzt aktualisiert

War das hilfreich?