PowerInfer
Что такое PowerInfer?
Ключевые возможности
Зачем использовать PowerInfer на Clore.ai?
Требования к оборудованию
Размер модели
Мин. VRAM
Рекомендуемая ОЗУ
Производительность
Быстрый старт на Clore.ai
Шаг 1: Выберите сервер
Шаг 2: Создайте пользовательский Docker-образ
Шаг 3: Разверните на Clore.ai
Сборка PowerInfer из исходников
Проверить сборку
Получение моделей
Скачать модели GGUF
Генерация предиктора нейронов (требуется для PowerInfer)
Запуск вывода
Базовый вывод (без предиктора)
Режим PowerInfer (с предиктором)
Интерактивный режим чата
Серверный режим (API, совместимый с OpenAI)
Оптимизация разделения слоёв на GPU
VRAM GPU
Модель 7B
Модель 13B
Модель 34B
Модель 70B
Тесты производительности
Сравнение пропускной способности (Llama 2 70B, RTX 3090)
Движок
Слои на GPU
Токенов/с
Запуск как сервис
Использование API
Устранение неполадок
CUDA: недостаточно памяти
Медленный вывод на CPU
Сборка не удалась
Рекомендации по GPU для Clore.ai
GPU
VRAM
Цена Clore.ai
Макс. модель (Q4)
Пропускная способность (Llama 2 70B Q4)
Ресурсы
Последнее обновление
Это было полезно?