SGLang

SGLang für hochleistungsfähiges LLM-Serving mit RadixAttention auf Clore.ai-GPUs bereitstellen

SGLang (Structured Generation Language) ist ein leistungsstarkes LLM-Serving-Framework, das vom LMSYS-Team entwickelt wurde, bekannt für ihre Arbeit an Vicuna und Chatbot Arena. Es verfügt über RadixAttention zur gemeinsamen Nutzung des KV-Caches, effiziente MoE (Mixture of Experts)-Unterstützung und eine OpenAI-kompatible API — wodurch es eine der schnellsten Open-Source-Inferenz-Engines auf CLORE.AI GPU-Servern ist.

circle-check

Serveranforderungen

Parameter
Minimum
Empfohlen

RAM

16 GB

32 GB+

VRAM

8 GB

24 GB+

Festplatte

50 GB

200 GB+

GPU

NVIDIA Turing+ (RTX 2000+)

A100, H100, RTX 4090

circle-info

SGLang erreicht die beste Leistung auf Ampere+ GPUs mit aktiviertem FlashInfer. Für MoE-Modelle wie Mixtral oder DeepSeek werden Multi-GPU-Setups empfohlen.

Schnelle Bereitstellung auf CLORE.AI

Docker-Image: lmsysorg/sglang:latest

Ports: 22/tcp, 30000/http

Umgebungsvariablen:

Variable
Beispiel
Beschreibung

HF_TOKEN

hf_xxx...

HuggingFace-Token für gesperrte Modelle

CUDA_VISIBLE_DEVICES

0,1

Zu verwendende GPUs

Schritt-für-Schritt Einrichtung

1. Mieten Sie einen GPU-Server auf CLORE.AI

Besuchen Sie CLORE.AI Marketplacearrow-up-right und wählen Sie einen Server aus:

  • 7B-Modelle: mindestens 16 GB VRAM (RTX 4080, A10)

  • 13B-Modelle: 24 GB VRAM (RTX 3090, RTX 4090, A5000)

  • 70B-Modelle: 80 GB+ VRAM (A100 80GB) oder Multi-GPU

  • MoE-Modelle (Mixtral 8x7B): 48 GB VRAM oder 2× 24 GB

2. SSH in Ihren Server

3. Ziehen Sie das SGLang Docker-Image

4. Starten Sie den SGLang-Server

Basisstart (Llama 3.1 8B):

Mit HuggingFace-Token:

Qwen2.5 72B auf Multi-GPU:

DeepSeek-V2 (MoE-Modell):

5. Überprüfen Sie den Serverzustand

6. Zugriff von Außen über den CLORE.AI-Proxy

Ihr CLORE.AI-Dashboard stellt eine http_pub URL für Port 30000 bereit:

Verwenden Sie diese URL als Basis-URL in jedem OpenAI-kompatiblen Client.


Anwendungsbeispiele

Beispiel 1: OpenAI-kompatible Chat-Completions

Beispiel 2: Streaming-Antwort

Beispiel 3: Python OpenAI-Client

Beispiel 4: Batch-Inferenz mit der SGLang-Native-API

SGLangs native API bietet zusätzliche Kontrolle:

Beispiel 5: Eingeschränkte JSON-Ausgabe

SGLang unterstützt die Erzeugung strukturierter Ausgaben:


Konfiguration

Wichtige Startparameter

Parameter
Standard
Beschreibung

--model-path

erforderlich

HuggingFace-Modell-ID oder lokaler Pfad

--host

127.0.0.1

Host binden (verwenden Sie 0.0.0.0 für extern)

--port

30000

Serverport

--tp

1

Grad der Tensor-Parallelität (Anzahl GPUs)

--dp

1

Grad der Datenparallelität

--dtype

auto

float16, bfloat16, float32

--mem-fraction-static

0.88

Anteil des VRAM für den KV-Cache

--max-prefill-tokens

auto

Maximale Token in einem Vorbefüllungsschritt

--context-length

modell max

Überschreiben der maximalen Kontextlänge

--trust-remote-code

false

Erlaube benutzerdefinierten Modellcode

--quantization

keine

awq, gptq, fp8

--load-format

auto

auto, pt, safetensors

--tokenizer-path

gleich wie Modell

Benutzerdefinierter Tokenizer-Pfad

Quantisierungsoptionen

AWQ (für Geschwindigkeit empfohlen):

FP8 (für H100/A100):


Leistungstipps

1. RadixAttention — Der Schlüsselvorteil

SGLangs RadixAttention verwendet automatisch den KV-Cache erneut für geteilte Prompt-Präfixe. Dies ist besonders nützlich für:

  • Chatbots mit langen System-Prompts

  • RAG-Anwendungen mit wiederholtem Kontext

  • Batch-API-Aufrufe, die dasselbe Präfix teilen

Keine zusätzliche Konfiguration erforderlich — es ist immer aktiviert.

2. Erhöhen Sie die KV-Cache-Größe

Seien Sie vorsichtig, nicht zu hoch zu gehen — lassen Sie Platz für Modellgewichte.

3. Gestückelte Vorbefüllung für lange Kontexte

4. Aktivieren Sie das FlashInfer-Backend

SGLang verwendet automatisch FlashInfer, wenn verfügbar (Ampere+ GPUs):

5. Multi-GPU Tensor-Parallelismus

Für Modelle, die nicht auf eine einzelne GPU passen:

Jede GPU muss genügend VRAM für ein Shard des Modells haben.

6. Abstimmung für Durchsatz vs. Latenz

Niedrige Latenz (einzelner Benutzer):

Hoher Durchsatz (viele Benutzer):


Fehlerbehebung

Problem: "torch.cuda.OutOfMemoryError"

Lösung: Reduzieren Sie den Speicheranteil oder verwenden Sie Quantisierung:

Problem: Server startet nicht (hängt beim Laden)

Problem: "trust_remote_code required"

Fügen Sie --trust-remote-code zum Startbefehl für Modelle mit benutzerdefinierten Architekturen (DeepSeek, Falcon usw.) hinzu.

Problem: Langsame Generierung bei MoE-Modellen

MoE-Modelle (Mixtral, DeepSeek) sind durch Speicherbandbreite begrenzt. Stellen Sie sicher, dass Sie verwenden:

Problem: Fehler bei Kontextlänge

Problem: Port 30000 nicht zugänglich

Stellen Sie sicher, dass der Port in Ihrer CLORE.AI-Bestellung freigegeben ist. Überprüfen Sie die http_pub-URL in Ihrem Bestell-Dashboard, nicht localhost.



Clore.ai GPU-Empfehlungen

Anwendungsfall
Empfohlene GPU
Geschätzte Kosten auf Clore.ai

Entwicklung/Testing

RTX 3090 (24 GB)

~$0.12/gpu/hr

Produktion (7B–13B)

RTX 4090 (24 GB)

~$0.70/gpu/hr

Große Modelle (70B+)

A100 80GB / H100

~$1.20/gpu/hr

💡 Alle Beispiele in diesem Leitfaden können auf Clore.aiarrow-up-right GPU-Servern bereitgestellt werden. Durchsuchen Sie verfügbare GPUs und mieten Sie stundenweise — keine Verpflichtungen, vollständiger Root-Zugriff.

Zuletzt aktualisiert

War das hilfreich?