LiteLLM AI Gateway

LiteLLM als AI-Gateway-Proxy für 100+ LLMs auf Clore.ai-GPUs bereitstellen

LiteLLM ist ein Open-Source-AI-Gateway, das eine einheitliche OpenAI-kompatible API für über 100 Sprachmodell-Anbieter bereitstellt – einschließlich OpenAI, Anthropic, Azure, Bedrock, HuggingFace und lokal gehosteter Modelle. Setzen Sie es auf CLORE.AI ein, um alle Ihre LLM-API-Aufrufe über einen einzigen Endpunkt mit eingebauter Kostenverfolgung, Ratenbegrenzung und Fallback-Logik zu routen, zu load-balancen und zu verwalten.

Die wahre Stärke von LiteLLM zeigt sich im großen Maßstab: Teams, die gemischte lokale+Cloud-Stacks betreiben, können Modelle austauschen, ohne den Anwendungscode zu berühren. gpt-4o mit mistral-7b-local in der Konfiguration ersetzen, neu starten — fertig.

circle-check

Serveranforderungen

Parameter
Minimum
Empfohlen

RAM

4 GB

8 GB+

VRAM

Nicht anwendbar (nur Proxy)

Nicht anwendbar

Festplatte

10 GB

20 GB+

GPU

Nicht erforderlich

Optional (für lokale Modelle)

circle-info

LiteLLM selbst ist ein CPU-basierter Proxy und benötigt keine GPU. Es macht jedoch Sinn, es auf einem CLORE.AI-GPU-Server bereitzustellen, wenn Sie lokale Modelle (über Ollama, TGI, vLLM) zusammen mit LiteLLM als einheitliches Gateway auf derselben Maschine ausführen möchten.

Schnelle Bereitstellung auf CLORE.AI

Docker-Image: ghcr.io/berriai/litellm:main-latest

Ports: 22/tcp, 4000/http

Umgebungsvariablen:

Variable
Beispiel
Beschreibung

OPENAI_API_KEY

sk-xxx...

OpenAI API-Schlüssel

ANTHROPIC_API_KEY

sk-ant-xxx...

Anthropic API-Schlüssel

AZURE_API_KEY

xxx...

Azure OpenAI-Schlüssel

LITELLM_MASTER_KEY

sk-my-master-key

Master-Authentifizierungsschlüssel für den Proxy

DATABASE_URL

postgresql://...

PostgreSQL für Kostenverfolgung

STORE_MODEL_IN_DB

True

Modellkonfiguration in der DB persistieren

Schritt-für-Schritt-Einrichtung

1. Mieten Sie einen Server auf CLORE.AI

LiteLLM funktioniert auch auf CPU-only-Servern hervorragend. Gehen Sie zu CLORE.AI Marketplacearrow-up-right und filtern Sie nach:

  • Günstigste CPU-Server für ein reines Proxy-Setup

  • GPU-Server (RTX 3090+), wenn Sie auch lokale Modelle ausführen möchten

2. SSH auf Ihren Server

3. Erstellen Sie eine Konfigurationsdatei

LiteLLM verwendet eine YAML-Konfigurationsdatei, um Modelle zu definieren:

4. Starten Sie LiteLLM

Basisstart:

Mit PostgreSQL für Kostenverfolgung:

Starten Sie zuerst einen PostgreSQL-Container:

Verwendung von Docker Compose (empfohlen):

5. Überprüfen Sie den Server

6. Zugriff über CLORE.AI HTTP-Proxy

Ihre CLORE.AI http_pub-URL für Port 4000:

Verwenden Sie dies als Ihr api_base in jedem OpenAI-kompatiblen Client.


Beispielanwendungen

Beispiel 1: Direkter API-Aufruf über Proxy

Beispiel 2: OpenAI Python SDK mit LiteLLM-Proxy

Beispiel 3: LiteLLM Python SDK (Direkt)

Beispiel 4: Fallback-Konfiguration

Konfigurieren Sie automatische Fallbacks zwischen Modellen:

Beispiel 5: Kosten-Tracking-Dashboard

Nachdem Sie PostgreSQL aktiviert haben, greifen Sie auf Ausgabenanalysen zu:


Konfiguration

Virtuelle Schlüssel (pro Benutzer API-Schlüssel)

Erstellen Sie separate Schlüssel mit Ratenbegrenzungen und Budgets:

Lastverteilung

Caching

Ratenbegrenzung


Leistungs-Tipps

1. Caching für wiederholte Prompts aktivieren

Für RAG- oder Chatbot-Anwendungen mit häufigen Fragen senkt Redis-Caching die Kosten um 30–70% und reduziert die P50-Latenz bei Cache-Treffern auf <5 ms:

2. Verwenden Sie asynchrone Anfragen

3. Lokale Modell-Routing

Routen Sie günstige/einfache Anfragen an lokale Modelle auf Clore.ai-GPUs, komplexe an GPT-4:

Eine typische Einrichtung: Führen Sie Mistral 7B oder Llama 3 8B lokal auf einer Clore.ai RTX 3090 ($0.10–0.15/Stunde) aus, bearbeiten Sie dort 80% des Traffics und eskalieren Sie komplexe Aufgaben an GPT-4o. Kosteneinsparungen von 3–5× gegenüber rein cloudbasierten Setups sind üblich.

4. Timeouts und Wiederholungen festlegen


Clore.ai GPU-Empfehlungen

LiteLLM selbst benötigt keine GPU — es ist ein Proxy. Die GPU-Auswahl ist nur dann relevant, wenn Sie lokale Inferenz daneben betreiben.

Lokales Modell
GPU
Warum

Mistral 7B / Llama 3 8B (bf16)

RTX 3090 24 GB

Passt bequem, ~200 tok/s Durchsatz

Mixtral 8×7B oder Llama 3 70B (AWQ)

RTX 4090 24 GB

Schnellere Speicherbandbreite als 3090; passt 70B AWQ 4-bit

Llama 3 70B (bf16) oder Multi-Model-Serving

A100 80 GB

Führen Sie mehrere 7–13B-Modelle gleichzeitig aus; HBM2e für niedrige Latenz

Empfohlener Stack für einen Solo-Entwickler: RTX 3090 + Mistral 7B + LiteLLM-Gateway. Gesamtkosten auf Clore.ai: ~0,12 $/Stunde. Bewältigt leicht ~50 Anfragen/Min, mit GPT-4o-Fallback für komplexe Aufgaben.

Team- / Produktions-Stack: A100 80GB, Llama 3 70B + LiteLLM + PostgreSQL. Bedient 20+ gleichzeitige Nutzer, vollständige Kostenverfolgung, für die meisten Anfragen keine Cloud-LLM-Kosten.


Fehlerbehebung

Problem: „Modell nicht gefunden“

Stellen Sie sicher, dass der Modellname in Ihrer Anfrage genau mit dem in config.yaml:

Problem: „Authentifizierung fehlgeschlagen“

Überprüfen Sie Ihre LITELLM_MASTER_KEY Umgebungsvariable und verwenden Sie sie als Bearer-Token.

Problem: Konfigurationsänderungen werden nicht übernommen

Starten Sie den Container nach Konfigurationsänderungen neu:

Problem: Hohe Latenz bei der ersten Anfrage

LiteLLM lädt Modellkonfigurationen beim Start. Die ersten Anfragen können langsamer sein, da Verbindungen aufgebaut werden.

Problem: Datenbankverbindungsfehler

Problem: 429 Ratenbegrenzungsfehler von Anbietern

Konfigurieren Sie Fallbacks:


Clore.ai GPU-Empfehlungen

LiteLLM ist ein API-Gateway/Proxy — es führt selbst keine Inferenz durch. Die GPU-Auswahl hängt davon ab, ob Sie zu Cloud-APIs oder lokalen Modellen routen.

Einrichtung
GPU
Clore.ai-Preis
Anwendungsfall

Nur Cloud-API-Proxy

Nur CPU

~$0.02/Stunde

Routen Sie zu OpenAI, Anthropic, Gemini — keine GPU erforderlich

Lokales vLLM-Backend

RTX 3090 (24GB)

~$0.12/Stunde

Selbst gehostete 7B–13B-Modelle mit LiteLLM als Frontend

Lokales vLLM-Backend

RTX 4090 (24GB)

~$0.70/Stunde

Höherer Durchsatz für lokale 7B–34B-Modelle

Lokales vLLM-Backend

A100 40GB

~$1.20/Stunde

70B-Modelle, produktiver lokaler Betrieb

circle-info

Am häufigsten verwendete Konfiguration: Führen Sie LiteLLM als einheitlichen Proxy vor Ihren Clore.ai-gehosteten vLLM/Ollama-Instanzen aus. Das gibt Ihnen Anbieter-Fallbacks, Ratenbegrenzung, Kostenverfolgung und OpenAI-kompatibles Routing — während alle Inferenz lokal und kostengünstig bleibt.

Beispielkosten: Führen Sie den LiteLLM-Proxy auf einer CPU-only-Instanz (0,02 $/Stunde) aus und richten Sie ihn auf einen vLLM-Server auf einer RTX 3090 (0,12 $/Stunde). Gesamtkosten ~0,14 $/Stunde für eine produktionsbereite, selbst gehostete LLM-API mit Fallbacks, Protokollierung und Ratenbegrenzung.


Zuletzt aktualisiert

War das hilfreich?