Aphrodite Engine

Запустите Aphrodite Engine для инференса LLM на устаревших и современных GPU на Clore.ai

Aphrodite Engine — это оптимизированный сервер вывода LLM, построенный поверх vLLM и специально адаптированный для сообщества творческого письма и ролевых игр. Он поддерживает широкий спектр GPU начиная с Pascal (серия GTX 1000), что делает его идеальным выбором для запуска языковых моделей на старых или бюджетных GPU-серверах CLORE.AI, где другие фреймворки не справляются. Aphrodite добавляет совместимые с Kobold API, сэмплинг Mirostat и продвинутые алгоритмы выборки текста, отсутствующие в основных фреймворках для сервинга.

circle-check

Требования к серверу

Параметр
Минимум
Рекомендуется

ОЗУ

16 ГБ

32 ГБ+

VRAM

6 ГБ

16 ГБ+

Диск

40 ГБ

150 ГБ+

GPU

NVIDIA Pascal+ (GTX 1060+)

RTX 3090, A100

circle-info

Aphrodite Engine — один из немногих серверов LLM, поддерживающий GPU поколения Pascal (серия GTX 10xx). Это делает его идеальным для бюджетных серверов на CLORE.AI с более старыми видеокартами, у которых низкие цены аренды.

Быстрое развертывание на CLORE.AI

Docker-образ: alpindale/aphrodite-engine:latest

Порты: 22/tcp, 2242/http

Переменные окружения:

Переменная
Пример
Описание

HF_TOKEN

hf_xxx...

Токен HuggingFace для gated-моделей

APHRODITE_MODEL

mistralai/Mistral-7B-Instruct-v0.3

Модель для загрузки

Пошаговая настройка

1. Арендуйте GPU-сервер на CLORE.AI

Широкая поддержка GPU в Aphrodite позволяет арендовать бюджетные серверы на CLORE.AI Маркетплейсarrow-up-right:

  • Pascal (GTX 1060–1080 Ti): 6–11 ГБ видеопамяти — запускать небольшие модели 3B-7B с квантованием

  • Turing (серия RTX 2000): 8–24 ГБ видеопамяти — модели 7B-13B, лучшая производительность

  • Ampere (RTX 3000/A100): 24–80 ГБ видеопамяти — модели 30B-70B, на полной скорости

  • Ada (серия RTX 4000): 16–24 ГБ видеопамяти — лучшее соотношение производительность/цена

2. Подключитесь по SSH

3. Загрузите образ Aphrodite Engine

4. Запустите Aphrodite Engine

Базовый запуск с моделью 7B:

С HuggingFace-токеном (Llama 3):

С квантованием GPTQ (для ограниченной видеопамяти):

С квантованием AWQ:

Запуск модели в формате GGUF (Aphrodite нативно поддерживает GGUF):

5. Проверьте сервер

6. Доступ через HTTP‑прокси CLORE.AI

Панель заказов CLORE.AI предоставляет http_pub URL для порта 2242. Используйте его в ваших клиентских приложениях:


Примеры использования

Пример 1: Chat, совместимый с OpenAI

Пример 2: Продвинутый сэмплинг с Mirostat

Aphrodite поддерживает сэмплинг Mirostat для более связного длинного текста:

Пример 3: API, совместимое с Kobold

Aphrodite включает конечную точку, совместимую с Kobold, для использования с фронтендами на основе KoboldAI:

Пример 4: Python-клиент с пользовательскими сэмплерами

Пример 5: Пакетные (batch) дописки


Конфигурация

Ключевые параметры запуска

Параметр
По умолчанию
Описание

--model

обязательно

ID модели или локальный путь

--host

127.0.0.1

Адрес привязки

--port

2242

Порт сервера

--dtype

auto

float16, bfloat16, float32

--quantization

none

awq, gptq, squeezellm, fp8

--max-model-len

максимум модели

Переопределить макс. длину контекста

--gpu-memory-utilization

0.90

Доля видеопамяти GPU

--tensor-parallel-size

1

Количество GPU для тензорного параллелизма

--max-num-seqs

256

Максимальное число параллельных последовательностей

--trust-remote-code

false

Разрешить пользовательский код модели

--api-keys

none

API-ключи, разделённые запятыми, для аутентификации

--served-model-name

имя модели

Пользовательское имя для ответов API

Добавление аутентификации по API-ключу

Затем используйте Authorization: Bearer mysecretkey1 в запросах.

Загрузка локальных моделей


Советы по производительности

1. Выберите подходящее квантование для вашего GPU

VRAM GPU
Модель 7B
Модель 13B
Модель 30B

6 ГБ

GPTQ/AWQ Q4

8 ГБ

GPTQ Q4

GPTQ Q4 (плотный)

12 ГБ

Float16

GPTQ Q4

16 ГБ

Float16

Float16

GPTQ Q4

24 ГБ

Float16

Float16

GPTQ Q4

48 ГБ

Float16

Float16

Float16

2. Настройте использование видеопамяти GPU

Начните с меньших значений и увеличивайте, если не возникает ошибок OOM.

3. Используйте bfloat16 на GPU Ampere+

Лучшая численная стабильность, чем у float16, та же скорость.

4. Оптимизация для ролевых игр/творческого письма

Эти сэмплеры хорошо подходят для повествовательного текста:

5. Советы для Pascal GPU (GTX 10xx)

Для Pascal GPU избегайте Flash Attention (не поддерживается):


Устранение неполадок

Проблема: "CUDA capability sm_6x not supported"

GPU Pascal требуют особой обработки. Используйте:

Если всё ещё не работает, проверьте, поддерживает ли версия образа Pascal:

Проблема: "out of memory" на маленьких GPU

Проблема: Медленная генерация токенов

  • Проверьте, действительно ли используется GPU: nvidia-smi внутри контейнера

  • Включите большие размеры батчей: --max-num-seqs 64

  • Используйте AWQ вместо GPTQ (быстрее инференс)

Проблема: Модель не найдена / ошибки 404

Всегда проверяйте, что имя модели совпадает точно:

Используйте точное имя модели из ответа в ваших запросах.

Проблема: Повторяющийся вывод

Добавьте штраф за повторение:

Проблема: Docker-контейнер завершается без вывода


Ссылки


Рекомендации Clore.ai по GPU

Сценарий использования
Рекомендуемый GPU
Примерная стоимость на Clore.ai

Разработка/Тестирование

RTX 3090 (24GB)

~$0.12/gpu/hr

Продакшен (7B–13B)

RTX 4090 (24GB)

~$0.70/gpu/hr

Крупные модели (70B+)

A100 80GB / H100

~$1.20/gpu/hr

💡 Все примеры в этом руководстве можно развернуть на Clore.aiarrow-up-right GPU-серверах. Просматривайте доступные GPU и арендуйте по часам — без обязательств, с полным root-доступом.

Последнее обновление

Это было полезно?