Llama.cpp сервер
Эффективный инференс LLM с сервером llama.cpp на GPU Clore.ai
Требования к серверу
Параметр
Минимум
Рекомендуется
Аренда на CLORE.AI
Доступ к вашему серверу
Что такое Llama.cpp?
Уровни квантования
Формат
Размер (7B)
Скорость
Качество
Быстрое развертывание
Доступ к вашему сервису
Проверьте, что всё работает
Полная справочная документация API
Стандартные конечные точки
Эндпоинт
Метод
Описание
Токенизировать текст
Свойства сервера
Собрать из исходников
Загрузка моделей
Параметры сервера
Базовый сервер
Полная выгрузка на GPU
Все опции
Использование API
Chat Completions (совместимо с OpenAI)
Потоковая передача (Streaming)
Дополнение текста
Эмбеддинги
Примеры cURL
Чат
Дополнение
Проверка состояния
Метрики
Мульти-GPU
Оптимизация памяти
Для ограниченной видеопамяти (VRAM)
Для максимальной скорости
Шаблоны, специфичные для модели
Llama 2 Chat
Mistral Instruct
ChatML (много моделей)
Python-обёртка для сервера
Бенчмаркинг
Сравнение производительности
Модель
GPU
Квантование
Токенов/с
Устранение неполадок
CUDA не обнаружена
Недостаточно памяти
Медленная генерация
Продакшен-настройка
Служба systemd
С nginx
Оценка стоимости
GPU
Почасовая ставка
Дневная ставка
Сессия 4 часа
Дальнейшие шаги
Последнее обновление
Это было полезно?