ExLlamaV2

Максимальная скорость инференса LLM с ExLlamaV2 на GPU Clore.ai

Запускайте LLM на максимальной скорости с ExLlamaV2.

circle-check

Аренда на CLORE.AI

  1. Отфильтруйте по типу GPU, объему VRAM и цене

  2. Выберите On-Demand (фиксированная ставка) или Spot (цена по ставке)

  3. Настройте ваш заказ:

    • Выберите Docker-образ

    • Установите порты (TCP для SSH, HTTP для веб-интерфейсов)

    • Добавьте переменные окружения при необходимости

    • Введите команду запуска

  4. Выберите способ оплаты: CLORE, BTC, или USDT/USDC

  5. Создайте заказ и дождитесь развертывания

Доступ к вашему серверу

  • Найдите данные для подключения в Моих заказах

  • Веб-интерфейсы: используйте URL HTTP-порта

  • SSH: ssh -p <port> root@<proxy-address>

Что такое ExLlamaV2?

ExLlamaV2 — самый быстрый движок для инференса больших языковых моделей:

  • В 2–3 раза быстрее других движков

  • Отличная количественная оценка (EXL2)

  • Низкое потребление видеопамяти (VRAM)

  • Поддерживает спекулятивное декодирование

Требования

Размер модели
Мин. VRAM
Рекомендуется

7B

6 ГБ

RTX 3060

13B

10GB

RTX 3090

34B

20GB

RTX 4090

70B

40GB

A100

Быстрое развертывание

Docker-образ:

Порты:

Команда:

Доступ к вашему сервису

После развертывания найдите ваш http_pub URL в Моих заказах:

  1. Перейдите на Моих заказах страницу

  2. Нажмите на ваш заказ

  3. Найдите http_pub URL (например, abc123.clorecloud.net)

Используйте https://YOUR_HTTP_PUB_URL вместо localhost в примерах ниже.

Установка

Загрузка моделей

Квантованные модели EXL2

Биты на вес (bpw)

BPW
Качество
VRAM (7B)

2.0

Низкая

~3ГБ

3.0

Хорошо

~4ГБ

4.0

Отлично

~5ГБ

5.0

Отлично

~6ГБ

6.0

Близко к FP16

~7ГБ

Python API

Базовая генерация

Потоковая генерация

Формат чата

Режим сервера

Запустить сервер

Использование API

Завершения чата

TabbyAPI (рекомендуемый сервер)

TabbyAPI предоставляет функционально насыщенный сервер ExLlamaV2:

Функции TabbyAPI

  • Совместимый с API OpenAI

  • Поддержка нескольких моделей

  • Горячая смена LoRA

  • Потоковая передача (Streaming)

  • Вызов функций

  • API администратора

Спекулятивная декодировка

Используйте меньшую модель для ускорения генерации:

Квантование ваших моделей

Конвертировать в EXL2

Командная строка

Управление памятью

Распределение кэша

Мульти-GPU

Сравнение производительности

Модель
Движок
GPU
Токенов/с

Llama 3.1 8B

ExLlamaV2

RTX 3090

~150

Llama 3.1 8B

llama.cpp

RTX 3090

~100

Llama 3.1 8B

vLLM

RTX 3090

~120

Llama 3.1 8B

ExLlamaV2

RTX 3090

~90

Mixtral 8x7B

ExLlamaV2

A100

~70

Расширенные настройки

Параметры сэмплинга

Пакетная генерация

Устранение неполадок

Ошибка CUDA: недостаточно памяти

Медленная загрузка

Модель не найдена

Интеграция с LangChain

Оценка стоимости

Типичные ставки на маркетплейсе CLORE.AI (по состоянию на 2024):

GPU
Почасовая ставка
Дневная ставка
Сессия 4 часа

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Цены варьируются в зависимости от провайдера и спроса. Проверьте CLORE.AI Marketplacearrow-up-right для текущих тарифов.

Экономьте деньги:

  • Используйте Spot рынок для гибких рабочих нагрузок (часто на 30–50% дешевле)

  • Платите с помощью CLORE токенов

  • Сравнивайте цены у разных провайдеров

Дальнейшие шаги

Последнее обновление

Это было полезно?