LiteLLM AI Gateway

Despliega LiteLLM como proxy de AI Gateway para más de 100 LLMs en las GPU de Clore.ai

LiteLLM es una pasarela de IA de código abierto que proporciona una API unificada compatible con OpenAI para más de 100 proveedores de modelos de lenguaje — incluidos OpenAI, Anthropic, Azure, Bedrock, HuggingFace y modelos alojados localmente. Despliegue en CLORE.AI para enrutar, balancear carga y gestionar todas sus llamadas a la API de LLM a través de un único endpoint con seguimiento de costes integrado, limitación de tasa y lógica de respaldo.

El verdadero poder de LiteLLM aparece a escala: equipos que ejecutan pilas mixtas local+cloud pueden cambiar modelos en caliente sin tocar el código de la aplicación. Reemplace gpt-4o con mistral-7b-local en la configuración, reinicie — listo.

circle-check

Requisitos del servidor

Parámetro
Mínimo
Recomendado

RAM

4 GB

8 GB+

VRAM

N/D (solo proxy)

N/D

Disco

10 GB

20 GB+

GPU

No requerido

Opcional (para modelos locales)

circle-info

LiteLLM en sí es un proxy basado en CPU y no requiere GPU. Sin embargo, desplegarlo en un servidor GPU de CLORE.AI tiene sentido cuando desea ejecutar modelos locales (vía Ollama, TGI, vLLM) junto con LiteLLM como una pasarela unificada en la misma máquina.

Despliegue rápido en CLORE.AI

Imagen Docker: ghcr.io/berriai/litellm:main-latest

Puertos: 22/tcp, 4000/http

Variables de entorno:

Variable
Ejemplo
Descripción

OPENAI_API_KEY

sk-xxx...

Clave API de OpenAI

ANTHROPIC_API_KEY

sk-ant-xxx...

Clave API de Anthropic

AZURE_API_KEY

xxx...

Clave de Azure OpenAI

LITELLM_MASTER_KEY

sk-mi-master-key

Clave maestra de autenticación para el proxy

DATABASE_URL

postgresql://...

PostgreSQL para seguimiento de costes

STORE_MODEL_IN_DB

True

Persistir la configuración del modelo en la BD

Configuración paso a paso

1. Alquile un Servidor en CLORE.AI

LiteLLM funciona muy bien incluso en servidores solo CPU. Vaya a CLORE.AI Marketplacearrow-up-right y filtre por:

  • Servidores CPU de menor precio para una configuración de proxy puro

  • Servidores GPU (RTX 3090+) si también desea ejecutar modelos locales

2. Conéctate por SSH a tu servidor

3. Cree un Archivo de Configuración

LiteLLM usa un archivo de configuración YAML para definir modelos:

4. Inicie LiteLLM

Lanzamiento básico:

Con PostgreSQL para el seguimiento de costes:

Primero, inicie un contenedor PostgreSQL:

Usando Docker Compose (recomendado):

5. Verifique el Servidor

6. Acceso vía Proxy HTTP de CLORE.AI

Su URL http_pub de CLORE.AI para el puerto 4000:

Use esto como su api_base en cualquier cliente compatible con OpenAI.


Ejemplos de uso

Ejemplo 1: Llamada API directa vía Proxy

Ejemplo 2: SDK de OpenAI en Python con el Proxy LiteLLM

Ejemplo 3: SDK de Python de LiteLLM (Directo)

Ejemplo 4: Configuración de Respaldo (Fallback)

Configure retrocesos automáticos entre modelos:

Ejemplo 5: Panel de Seguimiento de Costes

Después de habilitar PostgreSQL, acceda a la analítica de gastos:


Configuración

Claves Virtuales (Claves API por Usuario)

Cree claves separadas con límites de tasa y presupuestos:

Balanceo de Carga

Caché

Limitación de Tasa


Consejos de rendimiento

1. Habilite Caché para Prompts Repetidos

Para aplicaciones RAG o chatbots con preguntas comunes, el caché de Redis reduce costes entre 30–70% y baja la latencia P50 a <5 ms en aciertos de caché:

2. Use Solicitudes Asíncronas

3. Enrutamiento a Modelos Locales

Enrute solicitudes baratas/simples a modelos locales en GPUs de Clore.ai, las complejas a GPT-4:

Una configuración típica: ejecute Mistral 7B o Llama 3 8B localmente en una RTX 3090 de Clore.ai ($0.10–0.15/h), maneje allí el 80% del tráfico y escale tareas complejas a GPT-4o. Los ahorros de coste de 3–5× frente a solo nube son comunes.

4. Establezca Timeouts y Reintentos


Recomendaciones de GPU en Clore.ai

LiteLLM en sí no necesita GPU — es un proxy. La elección de GPU solo importa cuando despliega inferencia local junto con él.

Modelo Local
GPU
Por qué

Mistral 7B / Llama 3 8B (bf16)

RTX 3090 24 GB

Cabe cómodamente, ~200 tok/s de rendimiento

Mixtral 8×7B o Llama 3 70B (AWQ)

RTX 4090 24 GB

Mayor ancho de banda de memoria que la 3090; cabe 70B AWQ 4-bit

Llama 3 70B (bf16) o servicio multi-modelo

A100 80 GB

Ejecute múltiples modelos de 7–13B simultáneamente; HBM2e para baja latencia

Pila recomendada para un desarrollador en solitario: RTX 3090 + Mistral 7B + pasarela LiteLLM. Coste total en Clore.ai: ~0.12 $/h. Maneja ~50 req/min fácilmente, con fallback a GPT-4o para tareas complejas.

Pila para equipo/producción: A100 80GB, ejecute Llama 3 70B + LiteLLM + PostgreSQL. Sirve a 20+ usuarios concurrentes, seguimiento de costes completo, gasto en LLMs en la nube nulo para la mayoría de solicitudes.


Solución de problemas

Problema: "modelo no encontrado"

Asegúrese de que el nombre del modelo en su solicitud coincida exactamente con lo que está en config.yaml:

Problema: "autenticación fallida"

Verifique su LITELLM_MASTER_KEY variable de entorno y úsela como el token Bearer.

Problema: Los cambios de configuración no se reflejan

Reinicie el contenedor después de los cambios de configuración:

Problema: Alta latencia en la primera solicitud

LiteLLM carga las configuraciones de modelo al iniciar. Las primeras solicitudes pueden ser más lentas mientras se establecen las conexiones.

Problema: Errores de conexión a la base de datos

Problema: Errores 429 de límite de tasa desde los proveedores

Configure respaldos:


Recomendaciones de GPU en Clore.ai

LiteLLM es una pasarela/proxy de API — no realiza inferencia por sí mismo. La selección de GPU depende de si está enroutando a APIs en la nube o a modelos locales.

Configuración
GPU
Precio en Clore.ai
Caso de uso

Solo proxy de API en la nube

Solo CPU

~$0.02/hr

Enrute a OpenAI, Anthropic, Gemini — no se necesita GPU

Backend local vLLM

RTX 3090 (24GB)

~$0.12/h

Modelos autoalojados de 7B–13B con LiteLLM como frontend

Backend local vLLM

RTX 4090 (24GB)

~$0.70/h

Modelos locales de mayor rendimiento 7B–34B

Backend local vLLM

A100 40GB

~$1.20/h

Modelos 70B, servicio local en producción

circle-info

Configuración más común: Ejecute LiteLLM como un proxy unificado frente a sus instancias vLLM/Ollama alojadas en Clore.ai. Esto le ofrece respaldos de proveedores, limitación de tasa, seguimiento de costes y enrutamiento compatible con OpenAI — manteniendo toda la inferencia local y barata.

Ejemplo de coste: Ejecute el proxy LiteLLM en una instancia solo CPU (0.02 $/h) y apúntelo a un servidor vLLM en RTX 3090 (0.12 $/h). Coste total ~0.14 $/h para una API LLM autoalojada y lista para producción con respaldos, registro y limitación de tasa.


Enlaces

Última actualización

¿Te fue útil?