TGI (Text Generation Inference)
HuggingFace Text Generation Inference (TGI) für produktive LLM-Bereitstellung auf Clore.ai-GPUs ausführen
Serveranforderungen
Parameter
Minimum
Empfohlen
Schnelle Bereitstellung auf CLORE.AI
Variable
Beispiel
Beschreibung
Schritt-für-Schritt-Einrichtung
1. Mieten Sie einen GPU-Server auf CLORE.AI
2. Verbindung per SSH
3. Ziehen Sie das TGI-Docker-Image
4. Starten Sie TGI mit einem Modell
5. Überprüfen, ob der Server läuft
6. Zugriff über CLORE.AI HTTP-Proxy
Beispielanwendungen
Beispiel 1: Einfache Textgenerierung
Beispiel 2: Chat-Completions (OpenAI-kompatibel)
Beispiel 3: Streaming-Antwort
Beispiel 4: Python-Client
Beispiel 5: Batch-Anfragen
Konfiguration
Wichtige CLI-Parameter
Parameter
Standard
Beschreibung
Verwendung eines lokalen Modells
AWQ-Quantisierung (Schneller als NF4)
Leistungs-Tipps
1. Flash Attention 2 aktivieren
2. Maximalen Batch-Size anpassen
3. Verwenden Sie bfloat16 auf Ampere+-GPUs
4. Modelle vorab auf persistenter Speicherung herunterladen
5. GPU-Speichermanagement
6. Spekulatives Decoding
Fehlerbehebung
Problem: "CUDA out of memory"
Problem: Modell-Download ist langsam
Problem: Server über http_pub nicht erreichbar
Problem: "trust_remote_code ist erforderlich"
Problem: Langsame erste Antwort
Problem: Container beendet sich sofort
Links
Clore.ai GPU-Empfehlungen
Anwendungsfall
Empfohlene GPU
Geschätzte Kosten auf Clore.ai
Zuletzt aktualisiert
War das hilfreich?