Text Generation WebUI

Запускайте text-generation-webui для инференса LLM на GPU Clore.ai

Запустите самый популярный интерфейс LLM с поддержкой всех форматов моделей.

circle-check

Аренда на CLORE.AI

  1. Отфильтруйте по типу GPU, объему VRAM и цене

  2. Выберите On-Demand (фиксированная ставка) или Spot (цена по ставке)

  3. Настройте ваш заказ:

    • Выберите Docker-образ

    • Установите порты (TCP для SSH, HTTP для веб-интерфейсов)

    • Добавьте переменные окружения при необходимости

    • Введите команду запуска

  4. Выберите способ оплаты: CLORE, BTC, или USDT/USDC

  5. Создайте заказ и дождитесь развертывания

Доступ к вашему серверу

  • Найдите данные для подключения в Моих заказах

  • Веб-интерфейсы: используйте URL HTTP-порта

  • SSH: ssh -p <port> root@<proxy-address>

Почему Text Generation WebUI?

  • Поддерживает форматы GGUF, GPTQ, AWQ, EXL2, HF

  • Встроенные режимы: чат, блокнот и API

  • Расширения: голос, персонажи, мультимодальность

  • Поддержка дообучения

  • Переключение моделей на лету

Требования

Размер модели
Мин. VRAM
Рекомендуется

7B (Q4)

6 ГБ

RTX 3060

13B (Q4)

10GB

RTX 3080

30B (Q4)

20GB

RTX 4090

70B (Q4)

40GB

A100

Быстрое развертывание

Docker-образ:

Порты:

Окружение:

Ручная установка

Образ:

Порты:

Команда:

Доступ к вашему сервису

После развертывания найдите ваш http_pub URL в Моих заказах:

  1. Перейдите на Моих заказах страницу

  2. Нажмите на ваш заказ

  3. Найдите http_pub URL (например, abc123.clorecloud.net)

Используйте https://YOUR_HTTP_PUB_URL вместо localhost в примерах ниже.

Доступ к WebUI

  1. Ожидайте развертывания

  2. Найдите сопоставление порта 7860 в Моих заказах

  3. Откройте: http://<proxy>:<port>

Загрузка моделей

С HuggingFace (в WebUI)

  1. Перейдите на Модель вкладка

  2. Введите имя модели: bartowski/Meta-Llama-3.1-8B-Instruct-GGUF

  3. Нажмите Скачать

Через командную строку

Рекомендуемые модели

Для чата:

Для программирования:

Для ролевых игр:

Загрузка моделей

GGUF (Рекомендуется для большинства пользователей)

  1. Модель вкладка → Выберите папку с моделью

  2. Загрузчик моделей: llama.cpp

  3. Установите n-gpu-layers:

    • RTX 3090: 35-40

    • RTX 4090: 45-50

    • A100: 80+

  4. Нажмите Загрузить

GPTQ (Быстро, квантизовано)

  1. Скачать GPTQ модель

  2. Загрузчик моделей: ExLlama_HF или AutoGPTQ

  3. Загрузить модель

EXL2 (Лучшая скорость)

  1. Скачать модель EXL2

  2. Загрузчик моделей: ExLlamav2_HF

  3. Загрузить

Настройки чата

Настройка персонажа

  1. Перейдите на ПараметрыПерсонаж

  2. Создать или загрузить карточку персонажа

  3. Установить:

    • Имя

    • Контекст/персона

    • Пример диалога

Режим инструкций

Для моделей, натренированных на инструкциях:

  1. ПараметрыШаблон инструкции

  2. Выберите шаблон, соответствующий вашей модели:

    • Llama-2-chat

    • Mistral

    • ChatML

    • Alpaca

Использование API

Включить API

Начните с --api flag (порт по умолчанию 5000)

Совместимый с API OpenAI

Родной API

Расширения

Установка расширений

Включить расширения

  1. Сессия вкладка → Расширения

  2. Отметьте флажки для нужных расширений

  3. Нажмите Применить и перезапустить

Популярные расширения

Расширение
Назначение

silero_tts

Голосовой вывод

whisper_stt

Голосовой ввод

superbooga

Вопрос-ответ по документам

sd_api_pictures

Генерация изображений

мультимодальность

Понимание изображений

Настройка производительности

Настройки GGUF

Оптимизация памяти

Для ограниченной VRAM:

Оптимизация скорости

Тонкая настройка (LoRA)

Вкладка обучения

  1. Перейдите на Обучение вкладка

  2. Загрузить базовую модель

  3. Загрузить датасет (формат JSON)

  4. Настроить:

    • Ранг LoRA: 8-32

    • Скорость обучения: 1e-4

    • Эпохи: 3-5

  5. Запустите обучение

Формат датасета

Сохранение вашей работы

Устранение неполадок

Модель не загружается

  • Проверьте использование VRAM: nvidia-smi

  • Уменьшите n_gpu_layers

  • Используйте меньшую квантизацию (Q4_K_M → Q4_K_S)

Медленная генерация

  • Увеличьте n_gpu_layers

  • Используйте EXL2 вместо GGUF

  • Включите --no-mmap

triangle-exclamation

во время генерации - Уменьшите `n_ctx` (длину контекста) - Используйте `--n-gpu-layers 0` для работы только на CPU - Попробуйте меньшую модель

Оценка стоимости

Типичные ставки на маркетплейсе CLORE.AI (по состоянию на 2024):

GPU
Почасовая ставка
Дневная ставка
Сессия 4 часа

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Цены варьируются в зависимости от провайдера и спроса. Проверьте CLORE.AI Marketplacearrow-up-right для текущих тарифов.

Экономьте деньги:

  • Используйте Spot рынок для гибких рабочих нагрузок (часто на 30–50% дешевле)

  • Платите с помощью CLORE токенов

  • Сравнивайте цены у разных провайдеров

Последнее обновление

Это было полезно?