Llama.cpp сервер

Эффективный инференс LLM с сервером llama.cpp на GPU Clore.ai

Запускайте LLM эффективно с сервером llama.cpp на GPU.

circle-check

Требования к серверу

Параметр
Минимум
Рекомендуется

ОЗУ

8GB

16 ГБ+

VRAM

6 ГБ

8 ГБ+

Сеть

200 Мбит/с

500 Мбит/с+

Время запуска

~2–5 минут

-

circle-info

Llama.cpp экономно использует память благодаря квантованию GGUF. Модели 7B могут работать на 6–8 ГБ VRAM.

Аренда на CLORE.AI

  1. Отфильтруйте по типу GPU, объему VRAM и цене

  2. Выберите On-Demand (фиксированная ставка) или Spot (цена по ставке)

  3. Настройте ваш заказ:

    • Выберите Docker-образ

    • Установите порты (TCP для SSH, HTTP для веб-интерфейсов)

    • Добавьте переменные окружения при необходимости

    • Введите команду запуска

  4. Выберите способ оплаты: CLORE, BTC, или USDT/USDC

  5. Создайте заказ и дождитесь развертывания

Доступ к вашему серверу

  • Найдите данные для подключения в Моих заказах

  • Веб-интерфейсы: используйте URL HTTP-порта

  • SSH: ssh -p <port> root@<proxy-address>

Что такое Llama.cpp?

Llama.cpp — самый быстрый движок вывода для LLM на CPU/GPU:

  • Поддерживает квантованные модели GGUF

  • Низкое потребление памяти

  • Совместимый с API OpenAI

  • Поддержка нескольких пользователей

Уровни квантования

Формат
Размер (7B)
Скорость
Качество

Q2_K

2.8 ГБ

Самая быстрая

Низкая

Q4_K_M

4.1 ГБ

Быстро

Хорошо

Q5_K_M

4.8 ГБ

Средне

Отлично

Q6_K

5.5 ГБ

Медленнее

Отлично

Q8_0

7.2 ГБ

Самый медленный

Лучшее

Быстрое развертывание

Docker-образ:

Порты:

Команда:

Доступ к вашему сервису

После развертывания найдите ваш http_pub URL в Моих заказах:

  1. Перейдите на Моих заказах страницу

  2. Нажмите на ваш заказ

  3. Найдите http_pub URL (например, abc123.clorecloud.net)

Используйте https://YOUR_HTTP_PUB_URL вместо localhost в примерах ниже.

Проверьте, что всё работает

circle-exclamation

Полная справочная документация API

Стандартные конечные точки

Эндпоинт
Метод
Описание

/health

GET

Проверка состояния

/v1/models

GET

Список моделей

/v1/chat/completions

POST

Чат (совместимый с OpenAI)

/v1/completions

POST

Дополнение текста (совместимо с OpenAI)

/v1/embeddings

POST

Генерация эмбеддингов

/completion

POST

Родной endpoint для дополнений

/tokenize

POST

Токенизация текста

/detokenize

POST

Детокенизация токенов

/props

GET

Свойства сервера

/metrics

GET

Метрики Prometheus

Токенизировать текст

Ответ:

Свойства сервера

Ответ:

Собрать из исходников

Загрузка моделей

Параметры сервера

Базовый сервер

Полная выгрузка на GPU

Все опции

Использование API

Chat Completions (совместимо с OpenAI)

Потоковая передача (Streaming)

Дополнение текста

Эмбеддинги

Примеры cURL

Чат

Дополнение

Проверка состояния

Метрики

Мульти-GPU

Оптимизация памяти

Для ограниченной видеопамяти (VRAM)

Для максимальной скорости

Шаблоны, специфичные для модели

Llama 2 Chat

Mistral Instruct

ChatML (много моделей)

Python-обёртка для сервера

Бенчмаркинг

Сравнение производительности

Модель
GPU
Квантование
Токенов/с

Llama 3.1 8B

RTX 3090

Q4_K_M

~100

Llama 3.1 8B

RTX 4090

Q4_K_M

~150

Llama 3.1 8B

RTX 3090

Q4_K_M

~60

Mistral 7B

RTX 3090

Q4_K_M

~110

Mixtral 8x7B

A100

Q4_K_M

~50

Устранение неполадок

CUDA не обнаружена

Недостаточно памяти

Медленная генерация

Продакшен-настройка

Служба systemd

С nginx

Оценка стоимости

Типичные ставки на маркетплейсе CLORE.AI (по состоянию на 2024):

GPU
Почасовая ставка
Дневная ставка
Сессия 4 часа

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Цены варьируются в зависимости от провайдера и спроса. Проверьте CLORE.AI Marketplacearrow-up-right для текущих тарифов.

Экономьте деньги:

  • Используйте Spot рынок для гибких рабочих нагрузок (часто на 30–50% дешевле)

  • Платите с помощью CLORE токенов

  • Сравнивайте цены у разных провайдеров

Дальнейшие шаги

  • vLLM Inference — более высокая пропускная способность

  • ExLlamaV2 - Более быстрый вывод

  • Text Generation WebUI - Веб-интерфейс

Последнее обновление

Это было полезно?