ExLlamaV2
Максимальная скорость инференса LLM с ExLlamaV2 на GPU Clore.ai
Аренда на CLORE.AI
Доступ к вашему серверу
Что такое ExLlamaV2?
Требования
Размер модели
Мин. VRAM
Рекомендуется
Быстрое развертывание
Доступ к вашему сервису
Установка
Загрузка моделей
Квантованные модели EXL2
Биты на вес (bpw)
BPW
Качество
VRAM (7B)
Python API
Базовая генерация
Потоковая генерация
Формат чата
Режим сервера
Запустить сервер
Использование API
Завершения чата
TabbyAPI (рекомендуемый сервер)
Функции TabbyAPI
Спекулятивная декодировка
Квантование ваших моделей
Конвертировать в EXL2
Командная строка
Управление памятью
Распределение кэша
Мульти-GPU
Сравнение производительности
Модель
Движок
GPU
Токенов/с
Расширенные настройки
Параметры сэмплинга
Пакетная генерация
Устранение неполадок
Ошибка CUDA: недостаточно памяти
Медленная загрузка
Модель не найдена
Интеграция с LangChain
Оценка стоимости
GPU
Почасовая ставка
Дневная ставка
Сессия 4 часа
Дальнейшие шаги
Последнее обновление
Это было полезно?