LiteLLM AI Gateway

Déployer LiteLLM en tant que proxy passerelle IA pour plus de 100 LLMs sur les GPU Clore.ai

LiteLLM est une passerelle IA open-source qui fournit une API unifiée compatible OpenAI pour plus de 100 fournisseurs de modèles de langage — y compris OpenAI, Anthropic, Azure, Bedrock, HuggingFace et des modèles hébergés localement. Déployez-la sur CLORE.AI pour router, répartir la charge et gérer tous vos appels d'API LLM via un point de terminaison unique avec suivi des coûts intégré, limitation de débit et logique de secours.

La véritable puissance de LiteLLM apparaît à grande échelle : les équipes exécutant des piles mixtes locales+cloud peuvent remplacer les modèles à chaud sans toucher au code de l'application. Remplacez gpt-4o par mistral-7b-local dans la configuration, redémarrez — c'est fait.

circle-check

Exigences serveur

Paramètre
Minimum
Recommandé

RAM

4 Go

8 Go+

VRAM

N/D (proxy uniquement)

N/D

Disque

10 Go

20 Go+

GPU

Non requis

Optionnel (pour les modèles locaux)

circle-info

LiteLLM lui-même est un proxy basé sur CPU et ne nécessite pas de GPU. Cependant, le déployer sur un serveur GPU CLORE.AI a du sens si vous souhaitez exécuter des modèles locaux (via Ollama, TGI, vLLM) aux côtés de LiteLLM en tant que passerelle unifiée sur la même machine.

Déploiement rapide sur CLORE.AI

Image Docker : ghcr.io/berriai/litellm:main-latest

Ports : 22/tcp, 4000/http

Variables d’environnement :

Variable
Exemple
Description

OPENAI_API_KEY

sk-xxx...

Clé API OpenAI

ANTHROPIC_API_KEY

sk-ant-xxx...

Clé API Anthropic

AZURE_API_KEY

xxx...

Clé Azure OpenAI

LITELLM_MASTER_KEY

sk-my-master-key

Clé d'authentification maître pour le proxy

DATABASE_URL

postgresql://...

PostgreSQL pour le suivi des coûts

STORE_MODEL_IN_DB

True

Persister la config du modèle dans la BDD

Configuration étape par étape

1. Louez un serveur sur CLORE.AI

LiteLLM fonctionne très bien même sur des serveurs CPU uniquement. Allez sur CLORE.AI Marketplacearrow-up-right et filtrez pour :

  • Serveurs CPU au prix le plus bas pour une configuration purement proxy

  • Serveurs GPU (RTX 3090+) si vous souhaitez exécuter également des modèles locaux

2. SSH sur votre serveur

3. Créez un fichier de configuration

LiteLLM utilise un fichier de configuration YAML pour définir les modèles :

4. Lancez LiteLLM

Lancement de base :

Avec PostgreSQL pour le suivi des coûts :

D'abord, lancez un conteneur PostgreSQL :

Utilisation de Docker Compose (recommandé) :

5. Vérifiez le serveur

6. Accès via le proxy HTTP de CLORE.AI

Votre URL http_pub CLORE.AI pour le port 4000 :

Utilisez ceci comme votre api_base dans n'importe quel client compatible OpenAI.


Exemples d’utilisation

Exemple 1 : Appel API direct via le proxy

Exemple 2 : SDK Python OpenAI avec le proxy LiteLLM

Exemple 3 : SDK Python LiteLLM (Direct)

Exemple 4 : Configuration de secours (fallback)

Configurez des basculements automatiques entre modèles :

Exemple 5 : Tableau de bord de suivi des coûts

Après avoir activé PostgreSQL, accédez aux analyses des dépenses :


Configuration

Clés virtuelles (clés API par utilisateur)

Créez des clés séparées avec limites de débit et budgets :

Répartition de charge

Mise en cache

Limitation de débit


Conseils de performance

1. Activez la mise en cache pour les invites répétées

Pour les applications RAG ou chatbot avec des questions courantes, la mise en cache Redis réduit les coûts de 30–70 % et fait chuter la latence P50 à <5ms sur les hits de cache :

2. Utilisez des requêtes asynchrones

3. Routage vers des modèles locaux

Routez les requêtes bon marché/simples vers des modèles locaux sur les GPU Clore.ai, les plus complexes vers GPT-4 :

Une configuration typique : exécuter Mistral 7B ou Llama 3 8B localement sur un RTX 3090 Clore.ai (0,10–0,15 $/h), traiter 80 % du trafic là-bas, escalader les tâches complexes vers GPT-4o. Des économies de 3–5× par rapport au cloud uniquement sont courantes.

4. Définissez des timeouts et des retries


Recommandations GPU Clore.ai

LiteLLM lui-même n'a pas besoin de GPU — c'est un proxy. Le choix du GPU importe uniquement lorsque vous déployez conjointement l'inférence locale.

Modèle local
GPU
Pourquoi

Mistral 7B / Llama 3 8B (bf16)

RTX 3090 24 Go

Convient confortablement, ~200 tok/s débit

Mixtral 8×7B ou Llama 3 70B (AWQ)

RTX 4090 24 Go

Bande passante mémoire plus rapide que 3090 ; prend en charge 70B AWQ 4-bit

Llama 3 70B (bf16) ou service multi-modèles

A100 80 Go

Exécutez plusieurs modèles 7–13B simultanément ; HBM2e pour faible latence

Pile recommandée pour un développeur solo : RTX 3090 + Mistral 7B + passerelle LiteLLM. Coût total sur Clore.ai : ~0,12 $/h. Gère ~50 req/min facilement, avec fallback vers GPT-4o pour les tâches complexes.

Pile équipe / production : A100 80GB, exécutez Llama 3 70B + LiteLLM + PostgreSQL. Sert 20+ utilisateurs concurrents, suivi complet des coûts, zéro dépense LLM cloud pour la plupart des requêtes.


Dépannage

Problème : « modèle introuvable »

Assurez-vous que le nom du modèle dans votre requête correspond exactement à ce qui se trouve dans config.yaml:

Problème : « authentification échouée »

Vérifiez votre LITELLM_MASTER_KEY variable d'environnement et utilisez-la comme token Bearer.

Problème : les changements de config ne sont pas pris en compte

Redémarrez le conteneur après les modifications de config :

Problème : latence élevée sur la première requête

LiteLLM charge les configs de modèles au démarrage. Les premières requêtes peuvent être plus lentes le temps que les connexions soient établies.

Problème : erreurs de connexion à la base de données

Problème : erreurs 429 de limitation de débit de la part des fournisseurs

Configurez des basculements :


Recommandations GPU Clore.ai

LiteLLM est une passerelle/proxy API — il n'effectue pas d'inférence lui-même. Le choix du GPU dépend de si vous routez vers des API cloud ou des modèles locaux.

Configuration
GPU
Prix Clore.ai
Cas d’utilisation

Proxy API cloud uniquement

CPU uniquement

~0,02$/h

Routez vers OpenAI, Anthropic, Gemini — aucun GPU nécessaire

Backend local vLLM

RTX 3090 (24GB)

~0,12 $/h

Modèles auto-hébergés 7B–13B avec LiteLLM en frontend

Backend local vLLM

RTX 4090 (24GB)

~0,70 $/h

Modèles locaux 7B–34B à plus haut débit

Backend local vLLM

A100 40GB

~1,20 $/h

Modèles 70B, service local en production

circle-info

Configuration la plus courante : Exécutez LiteLLM en tant que proxy unifié devant vos instances vLLM/Ollama hébergées sur Clore.ai. Cela vous offre des basculements fournisseurs, limitation de débit, suivi des coûts et routage compatible OpenAI — tout en gardant toute l'inférence locale et peu coûteuse.

Exemple de coût : Exécutez le proxy LiteLLM sur une instance CPU-only (0,02 $/h) et pointez-le vers un serveur vLLM sur RTX 3090 (0,12 $/h). Coût total ~0,14 $/h pour une API LLM auto-hébergée prête pour la production avec basculements, journalisation et limitation de débit.


Liens

Mis à jour

Ce contenu vous a-t-il été utile ?