LiteLLM AI Gateway

Разверните LiteLLM как AI Gateway-прокси для 100+ LLM на GPU Clore.ai

LiteLLM — это открытый шлюз ИИ, предоставляющий унифицированный API, совместимый с OpenAI, для более чем 100 поставщиков языковых моделей — включая OpenAI, Anthropic, Azure, Bedrock, HuggingFace и локально размещённые модели. Разверните его на CLORE.AI, чтобы маршрутизировать, балансировать нагрузку и управлять всеми вашими вызовами LLM API через единый эндпоинт с встроенным отслеживанием затрат, ограничением скорости и логикой резервного перехода.

Настоящая мощь LiteLLM проявляется в масштабе: команды, использующие смешанные локальные+облачные стеки, могут «горячо» менять модели без изменения кода приложения. gpt-4o на mistral-7b-local в конфигурации, перезапустите — готово.

circle-check

Требования к серверу

Параметр
Минимум
Рекомендуется

ОЗУ

4 ГБ

8 ГБ+

VRAM

N/A (только прокси)

N/A

Диск

10 ГБ

20 ГБ+

GPU

Не требуется

Необязательно (для локальных моделей)

circle-info

Сам LiteLLM является прокси на базе CPU и не требует GPU. Тем не менее имеет смысл развернуть его на GPU‑сервере CLORE.AI, если вы планируете запускать локальные модели (через Ollama, TGI, vLLM) рядом с LiteLLM в качестве единого шлюза на той же машине.

Быстрое развертывание на CLORE.AI

Docker-образ: ghcr.io/berriai/litellm:main-latest

Порты: 22/tcp, 4000/http

Переменные окружения:

Переменная
Пример
Описание

OPENAI_API_KEY

sk-xxx...

Ключ OpenAI API

ANTHROPIC_API_KEY

sk-ant-xxx...

Ключ Anthropic API

AZURE_API_KEY

xxx...

Ключ Azure OpenAI

LITELLM_MASTER_KEY

sk-my-master-key

Мастер‑ключ аутентификации для прокси

DATABASE_URL

postgresql://...

PostgreSQL для отслеживания затрат

STORE_MODEL_IN_DB

True

Сохранять конфигурацию модели в БД

Пошаговая настройка

1. Арендуйте сервер на CLORE.AI

LiteLLM отлично работает даже на серверах только с CPU. Перейдите на CLORE.AI Маркетплейсarrow-up-right и отфильтруйте по:

  • Самые дешёвые CPU‑серверы для чистой прокси‑настройки

  • GPU‑серверы (RTX 3090+) если вы хотите также запускать локальные модели

2. Подключитесь по SSH к вашему серверу

3. Создайте файл конфигурации

LiteLLM использует YAML‑файл конфигурации для определения моделей:

4. Запустите LiteLLM

Базовый запуск:

С PostgreSQL для отслеживания затрат:

Сначала запустите контейнер PostgreSQL:

Использование Docker Compose (рекомендуется):

5. Проверьте сервер

6. Доступ через HTTP‑прокси CLORE.AI

Ваш URL http_pub CLORE.AI для порта 4000:

Используйте это как ваш api_base в любом клиенте, совместимом с OpenAI.


Примеры использования

Пример 1: Прямой вызов API через прокси

Пример 2: OpenAI Python SDK с LiteLLM прокси

Пример 3: LiteLLM Python SDK (прямой)

Пример 4: Конфигурация резервирования (fallback)

Настройте автоматические резервные варианты между моделями:

Пример 5: Панель отслеживания затрат

После включения PostgreSQL получите доступ к аналитике расходов:


Конфигурация

Виртуальные ключи (API‑ключи для каждого пользователя)

Создавайте отдельные ключи с ограничениями скорости и бюджетами:

Балансировка нагрузки

Кеширование

Ограничение частоты (Rate Limiting)


Советы по производительности

1. Включите кеширование для повторяющихся подсказок

Для RAG или чатботов с часто задаваемыми вопросами кеширование в Redis сокращает расходы на 30–70% и снижает P50 задержку до <5 мс при попадании в кэш:

2. Используйте асинхронные запросы

3. Маршрутизация к локальным моделям

Направляйте дешёвые/простые запросы к локальным моделям на GPU Clore.ai, сложные — к GPT‑4:

Типичная настройка: запускать Mistral 7B или Llama 3 8B локально на Clore.ai RTX 3090 ($0.10–0.15/час), обрабатывать там 80% трафика и передавать сложные задачи GPT‑4o. Экономия 3–5× по сравнению с только облачным вариантом — обычное дело.

4. Установите таймауты и повторные попытки


Рекомендации Clore.ai по GPU

Самому LiteLLM GPU не нужен — это прокси. Выбор GPU важен только если вы развертываете локальный inference рядом с ним.

Локальная модель
GPU
Почему

Mistral 7B / Llama 3 8B (bf16)

RTX 3090 24 ГБ

Вмещается с запасом, ~200 ток/с пропускная способность

Mixtral 8×7B или Llama 3 70B (AWQ)

RTX 4090 24 ГБ

Быстрее пропускная способность памяти, чем у 3090; вмещает 70B AWQ 4‑бит

Llama 3 70B (bf16) или многомодельный сервер

A100 80 ГБ

Запускайте одновременно несколько моделей 7–13B; HBM2e для низкой задержки

Рекомендуемый стек для одиночного разработчика: RTX 3090 + Mistral 7B + шлюз LiteLLM. Общая стоимость на Clore.ai: ~0.12$/час. Лёгко обрабатывает ~50 запросов/мин, с резервным переходом на GPT‑4o для сложных задач.

Командный / продакшен стек: A100 80GB, запуск Llama 3 70B + LiteLLM + PostgreSQL. Обслуживает 20+ одновременных пользователей, полнота отслеживания затрат, ноль расходов на облачные LLM для большинства запросов.


Устранение неполадок

Проблема: «model not found»

Убедитесь, что имя модели в вашем запросе точно соответствует тому, что в config.yaml:

Проблема: «authentication failed»

Проверьте ваш LITELLM_MASTER_KEY переменную окружения и используйте её как токен Bearer.

Проблема: изменения конфигурации не применяются

Перезапустите контейнер после изменения конфигурации:

Проблема: высокая задержка при первом запросе

LiteLLM загружает конфигурации моделей при запуске. Первые несколько запросов могут быть медленнее, пока устанавливаются соединения.

Проблема: ошибки соединения с базой данных

Проблема: ошибки 429 (rate limit) от провайдеров

Настройте резервные варианты:


Рекомендации Clore.ai по GPU

LiteLLM — это шлюз/прокси API — он сам не выполняет вывод. Выбор GPU зависит от того, маршрутизируете ли вы к облачным API или к локальным моделям.

Установка
GPU
Цена Clore.ai
Сценарий использования

Только прокси для облачных API

Только CPU

~$0.02/ч

Маршрутизация к OpenAI, Anthropic, Gemini — GPU не нужен

Локальный бэкенд vLLM

RTX 3090 (24GB)

~$0.12/ч

Самохостинг моделей 7B–13B с LiteLLM в качестве фронтенда

Локальный бэкенд vLLM

RTX 4090 (24GB)

~$0.70/ч

Более высокая пропускная способность локальных моделей 7B–34B

Локальный бэкенд vLLM

A100 40GB

~$1.20/ч

70B модели, продакшен‑локальное обслуживание

circle-info

Наиболее распространённая конфигурация: Запускайте LiteLLM как единый прокси перед вашими размещёнными на Clore.ai vLLM/Ollama инстансами. Это даёт вам резервные провайдеры, ограничение скорости, отслеживание затрат и маршрутизацию, совместимую с OpenAI, при сохранении всего вывода локальным и дешёвым.

Пример стоимости: Запустите прокси LiteLLM на экземпляре только с CPU (0.02$/час) и укажите его на vLLM сервер на RTX 3090 (0.12$/час). Общая стоимость ~0.14$/час для готового к продакшену, саморазмещённого LLM API с резервными вариантами, логированием и ограничением скорости.


Ссылки

Последнее обновление

Это было полезно?