LiteLLM AI 网关

在 Clore.ai GPU 上部署 LiteLLM 作为 100+ 大型语言模型的 AI 网关代理

LiteLLM 是一个开源的 AI 网关,为 100+ 个语言模型提供商(包括 OpenAI、Anthropic、Azure、Bedrock、HuggingFace 以及本地托管模型)提供统一的兼容 OpenAI 的 API。在 CLORE.AI 上部署它可以通过单一端点路由、负载均衡并管理所有 LLM API 调用,并内置费用跟踪、速率限制和回退逻辑。

LiteLLM 的真正能力在于大规模场景:运行混合本地+云堆栈的团队可以在不改动应用代码的情况下热插拔模型。将 gpt-4o 替换为 mistral-7b-local 在配置中,重启 —— 完成。

circle-check

服务器要求

参数
最低要求
推荐配置

内存(RAM)

4 GB

8 GB+

显存(VRAM)

不适用(仅代理)

不适用

磁盘

10 GB

20 GB+

GPU

不需要

可选(用于本地模型)

circle-info

LiteLLM 本身是基于 CPU 的代理,不需要 GPU。但是,当您希望在同一台机器上与 LiteLLM 一起运行本地模型(通过 Ollama、TGI、vLLM)时,在 CLORE.AI 的 GPU 服务器上部署是有意义的。

在 CLORE.AI 上快速部署

Docker 镜像: ghcr.io/berriai/litellm:main-latest

端口: 22/tcp, 4000/http

环境变量:

变量
示例
描述

OPENAI_API_KEY

sk-xxx...

OpenAI API 密钥

ANTHROPIC_API_KEY

sk-ant-xxx...

Anthropic API 密钥

AZURE_API_KEY

xxx...

Azure OpenAI 密钥

LITELLM_MASTER_KEY

sk-my-master-key

代理的主认证密钥

DATABASE_URL

postgresql://...

用于费用跟踪的 PostgreSQL

STORE_MODEL_IN_DB

True

将模型配置持久化到数据库

逐步设置

1. 在 CLORE.AI 上租用服务器

LiteLLM 即使在仅 CPU 的服务器上也能很好运行。前往 CLORE.AI 市场arrow-up-right 并筛选:

  • 用于纯代理设置的最低价 CPU 服务器

  • 如果您也想运行本地模型,则选择 GPU 服务器(RTX 3090+)

2. SSH 登录到您的服务器

3. 创建配置文件

LiteLLM 使用 YAML 配置文件来定义模型:

4. 启动 LiteLLM

基础启动:

使用 PostgreSQL 进行费用跟踪:

首先,启动一个 PostgreSQL 容器:

使用 Docker Compose(推荐):

5. 验证服务器

6. 通过 CLORE.AI HTTP 代理访问

您的 CLORE.AI http_pub(用于端口 4000)URL:

将此用作您的 api_base 在任何兼容 OpenAI 的客户端中使用。


使用示例

示例 1:通过代理的直接 API 调用

示例 2:使用 LiteLLM 代理的 OpenAI Python SDK

示例 3:LiteLLM Python SDK(直接)

示例 4:回退配置

配置模型之间的自动回退:

示例 5:费用跟踪仪表盘

启用 PostgreSQL 后,访问支出分析:


invokeai.yaml 配置文件

虚拟密钥(每用户 API 密钥)

为不同用户创建具有速率限制和预算的独立密钥:

负载均衡

缓存

速率限制


1. 使用 SDXL-Turbo 或 SDXL-Lightning 以实现快速生成

1. 为重复提示启用缓存

对于具有常见问题的 RAG 或聊天机器人应用,Redis 缓存可降低 30–70% 的成本,并在缓存命中时将 P50 延迟降至 <5ms:

2. 使用异步请求

3. 本地模型路由

将廉价/简单的请求路由到 Clore.ai GPU 上的本地模型,将复杂请求交给 GPT-4:

典型设置:在本地运行 Mistral 7B 或 Llama 3 8B(在 Clore.ai 的 RTX 3090 上,$0.10–0.15/小时),在那里处理 80% 的流量,然后将复杂任务升级到 GPT-4o。与仅使用云相比,通常能节省 3–5 倍的成本。

4. 设置超时和重试


Clore.ai 的 GPU 建议

LiteLLM 本身不需要 GPU —— 它是一个代理。只有在您在其旁边共同部署本地推理时,GPU 的选择才重要。

本地模型
GPU
为什么

Mistral 7B / Llama 3 8B(bf16)

RTX 3090 24 GB

可轻松适配,约 200 tok/s 吞吐量

Mixtral 8×7B 或 Llama 3 70B(AWQ)

RTX 4090 24 GB

比 3090 更快的内存带宽;可容纳 70B AWQ 的 4-bit 模型

Llama 3 70B(bf16)或多模型服务

A100 80 GB

同时运行多个 7–13B 模型;使用 HBM2e 以实现低延迟

单人开发者推荐堆栈: RTX 3090 + Mistral 7B + LiteLLM 网关。在 Clore.ai 上总成本约 $0.12/小时。可轻松处理约 50 次请求/分钟,并在复杂任务时回退到 GPT-4o。

团队 / 生产堆栈: A100 80GB,运行 Llama 3 70B + LiteLLM + PostgreSQL。可服务 20+ 并发用户,完整费用跟踪,对大多数请求实现零云 LLM 支出。


故障排除

问题:"找不到模型"

确保请求中的模型名称与 config.yaml:

问题:"认证失败"

检查您的 LITELLM_MASTER_KEY 环境变量并将其用作 Bearer 令牌。

问题:配置更改未生效

在更改配置后重启容器:

问题:首次请求延迟高

LiteLLM 在启动时加载模型配置。前几次请求在建立连接时可能会较慢。

问题:数据库连接错误

问题:来自提供商的 429 速率限制错误

配置回退:


Clore.ai 的 GPU 建议

LiteLLM 是一个 API 网关/代理 —— 它本身不做推理。GPU 的选择取决于您是路由到云 API 还是本地模型。

设置
GPU
Clore.ai 价格
在 Clore.ai 上的预估费用

仅云 API 代理

仅 CPU

≈$0.02/小时

路由到 OpenAI、Anthropic、Gemini —— 无需 GPU

本地 vLLM 后端

生产

~$0.12/小时

自托管的 7B–13B 模型,LiteLLM 作为前端

本地 vLLM 后端

大规模

~$0.70/小时

更高吞吐量的 7B–34B 本地模型

本地 vLLM 后端

A100 40GB

~$1.20/小时

70B 模型,生产级本地服务

circle-info

最常见的设置: 在 Clore.ai 托管的 vLLM/Ollama 实例前运行 LiteLLM 作为统一代理。这为您提供提供商回退、速率限制、费用跟踪和兼容 OpenAI 的路由,同时将所有推理保持在本地以降低成本。

示例成本: 在仅 CPU 实例上运行 LiteLLM 代理($0.02/小时)并将其指向在 RTX 3090 上的 vLLM 服务器($0.12/小时)。具有回退、日志记录和速率限制的可用于生产的自托管 LLM API 总成本约 $0.14/小时。


文档

最后更新于

这有帮助吗?