文本生成 WebUI

在 Clore.ai GPU 上运行 text-generation-webui 进行 LLM 推理

运行最流行的支持所有模型格式的 LLM 界面。

circle-check

在 CLORE.AI 上租用

  1. 按 GPU 类型、显存和价格筛选

  2. 选择 按需 (固定费率)或 竞价 (出价价格)

  3. 配置您的订单:

    • 选择 Docker 镜像

    • 设置端口(用于 SSH 的 TCP,Web 界面的 HTTP)

    • 如有需要,添加环境变量

    • 输入启动命令

  4. 选择支付方式: CLORE, BTC,或 USDT/USDC

  5. 创建订单并等待部署

访问您的服务器

  • 在以下位置查找连接详情: 我的订单

  • Web 界面:使用 HTTP 端口的 URL

  • SSH: ssh -p <port> root@<proxy-address>

为什么选择 Text Generation WebUI?

  • 支持 GGUF、GPTQ、AWQ、EXL2、HF 格式

  • 内置聊天、笔记本和 API 模式

  • 扩展:语音、角色、多模态

  • 微调支持

  • 即时切换模型

要求

模型大小
最小显存
推荐

7B(Q4)

6GB

按小时费率

13B(Q4)

10GB

RTX 3080

30B(Q4)

20GB

512x512

70B(Q4)

40GB

2s

快速部署

Docker 镜像:

端口:

环境:

手动安装

镜像:

端口:

命令:

访问您的服务

部署后,在以下位置查找您的 http_pub URL: 我的订单:

  1. 前往 我的订单 页面

  2. 单击您的订单

  3. 查找 http_pub URL(例如, abc123.clorecloud.net)

使用 https://YOUR_HTTP_PUB_URL 而不是 localhost 在下面的示例中。

访问 WebUI

  1. 等待部署完成

  2. 在以下位置查找端口 7860 的映射 我的订单

  3. 打开: http://<proxy>:<port>

下载模型

来自 HuggingFace(在 WebUI 中)

  1. 前往 A100 选项卡

  2. 输入模型名称: bartowski/Meta-Llama-3.1-8B-Instruct-GGUF

  3. 点击 下载

通过命令行

推荐模型

用于聊天:

用于代码:

用于角色扮演:

加载模型

GGUF(推荐大多数用户)

  1. A100 选项卡 → 选择模型文件夹

  2. 模型加载器: llama.cpp

  3. 设置 n-gpu-layers:

    • RTX 3090:35-40

    • RTX 4090:45-50

    • A100:80+

  4. 点击 加载

GPTQ(快速,量化)

  1. 下载 GPTQ 模型

  2. 模型加载器: ExLlama_HF 或 AutoGPTQ

  3. 加载模型

EXL2(最快)

  1. 下载 EXL2 模型

  2. 模型加载器: ExLlamav2_HF

  3. 加载

聊天配置

角色设置

  1. 前往 参数量角色

  2. 创建或加载角色卡片

  3. 设置:

    • 名称

    • 背景/人格

    • 示例对话

指令模式

对于经过指令微调的模型:

  1. 参数量指令模板

  2. 选择与您的模型匹配的模板:

    • Llama-2-chat

    • Mistral

    • ChatML

    • Alpaca

API 使用

启用 API

从以下设置开始 --api flag(默认端口 5000)

兼容 OpenAI 的 API

原生 API

扩展

安装扩展

启用扩展

  1. 会话 选项卡 → 扩展

  2. 勾选所需扩展的复选框

  3. 点击 应用并重启

热门扩展

扩展
用途

silero_tts

语音输出

whisper_stt

语音输入

superbooga

文档问答

sd_api_pictures

图像生成

多模态

图像理解

性能调优

GGUF 设置

内存优化

对于显存受限的情况:

速度优化

微调(LoRA)

训练 选项卡

  1. 前往 训练 选项卡

  2. 加载基础模型

  3. 上传数据集(JSON 格式)

  4. 配置:

    • LoRA 秩:8-32

    • 学习率:1e-4

    • 训练轮数:3-5

  5. 开始训练

数据集格式

保存您的工作

# 使用固定种子以获得一致结果

模型无法加载

  • 检查显存使用情况: nvidia-smi

  • 减少 n_gpu_layers

  • 使用更小的量化(Q4_K_M → Q4_K_S)

生成速度慢

  • 增加 n_gpu_layers

  • 使用 EXL2 代替 GGUF

  • 启用 --no-mmap

triangle-exclamation

在生成期间 - 减少 `n_ctx`(上下文长度) - 使用 `--n-gpu-layers 0` 仅使用 CPU - 尝试更小的模型

下载所有所需的检查点

检查文件完整性

GPU
验证 CUDA 兼容性
费用估算
CLORE.AI 市场的典型费率(截至 2024 年):

按小时费率

~$0.03

~$0.70

~$0.12

速度

~$0.06

~$1.50

~$0.25

512x512

~$0.10

~$2.30

~$0.40

按日费率

~$0.17

~$4.00

~$0.70

4 小时会话

~$0.25

~$6.00

~$1.00

RTX 3060 CLORE.AI 市场arrow-up-right A100 40GB

A100 80GB

  • 使用 竞价 价格随提供商和需求而异。请查看

  • 以获取当前费率。 CLORE 节省费用:

  • 市场用于灵活工作负载(通常便宜 30-50%)

最后更新于

这有帮助吗?