文本生成 WebUI

在 Clore.ai GPU 上运行 text-generation-webui 以进行 LLM 推理

运行最流行的支持所有模型格式的 LLM 界面。

所有示例都可以在通过以下方式租用的 GPU 服务器上运行： CLORE.AI 市场.

在 CLORE.AI 上租用

访问 CLORE.AI 市场
按 GPU 类型、显存和价格筛选
选择按需（固定费率）或竞价（出价价格）
配置您的订单：
- 选择 Docker 镜像
- 设置端口（用于 SSH 的 TCP，Web 界面的 HTTP）
- 如有需要，添加环境变量
- 输入启动命令
选择支付方式： CLORE, BTC，或 USDT/USDC
创建订单并等待部署

访问您的服务器

在以下位置查找连接详情： 我的订单
Web 界面：使用 HTTP 端口的 URL
SSH： ssh -p <port> root@<proxy-address>

为什么选择 Text Generation WebUI？

支持 GGUF、GPTQ、AWQ、EXL2、HF 格式
内置聊天、笔记本和 API 模式
扩展：语音、角色、多模态
微调支持
即时切换模型

要求

模型大小

最小显存

快速部署

Docker 镜像：

atinoda/text-generation-webui:default-nvidia

端口：

22/tcp
7860/http
5000/http
5005/http

环境：

EXTRA_LAUNCH_ARGS=--listen --api

手动安装

镜像：

nvidia/cuda:12.1.0-devel-ubuntu22.04

端口：

22/tcp
7860/http
5000/http

命令：

apt-get update && apt-get install -y git python3 python3-pip && \
cd /workspace && \
git clone https://github.com/oobabooga/text-generation-webui.git && \
cd text-generation-webui && \
pip install -r requirements.txt && \
python server.py --listen --api

访问您的服务

部署后，在以下位置查找您的 http_pub URL： 我的订单:

前往 我的订单 页面
单击您的订单
查找 http_pub URL（例如， abc123.clorecloud.net)

使用 https://YOUR_HTTP_PUB_URL 而不是 localhost 在下面的示例中。

访问 WebUI

等待部署完成
在以下位置查找端口 7860 的映射 我的订单
打开： http://<proxy>:<port>

下载模型

来自 HuggingFace（在 WebUI 中）

前往 A100 选项卡
输入模型名称： bartowski/Meta-Llama-3.1-8B-Instruct-GGUF
点击下载

通过命令行

cd /workspace/text-generation-webui

# 下载 GGUF 模型
python download-model.py bartowski/Meta-Llama-3.1-8B-Instruct-GGUF

# 下载特定文件
python download-model.py bartowski/Meta-Llama-3.1-8B-Instruct-GGUF --specific-file Meta-Llama-3.1-8B-Instruct-Q4_K_M.gguf

加载模型

GGUF（推荐大多数用户）

A100 选项卡 → 选择模型文件夹
模型加载器： llama.cpp
设置 n-gpu-layers：
- RTX 3090：35-40
- RTX 4090：45-50
- A100：80+
点击加载

GPTQ（快速，量化）

下载 GPTQ 模型
模型加载器： ExLlama_HF 或 AutoGPTQ
加载模型

EXL2（最快）


# 安装 exllamav2
pip install exllamav2

下载 EXL2 模型
模型加载器： ExLlamav2_HF
加载

聊天配置

角色设置

前往 参数量 → 角色
创建或加载角色卡片
设置：
- 名称
- 背景/人格
- 示例对话

指令模式

对于经过指令微调的模型：

参数量 → 指令模板
选择与您的模型匹配的模板：
- Llama-2-chat
- Mistral
- ChatML
- Alpaca

API 使用

启用 API

从以下设置开始 --api flag（默认端口 5000）

兼容 OpenAI 的 API

import openai

openai.api_base = "http://localhost:5000/v1"
openai.api_key = "not-needed"

response = openai.ChatCompletion.create(
    model="any",
    messages=[{"role": "user", "content": "Hello!"}]
)
print(response.choices[0].message.content)

原生 API

import requests

response = requests.post(
    "http://localhost:5000/api/v1/generate",
    json={
        "prompt": "写一个关于",
        "max_new_tokens": 200,
        "temperature": 0.7
    }
)
print(response.json()["results"][0]["text"])

扩展

安装扩展

cd /workspace/text-generation-webui/extensions

# Silero TTS（语音）
git clone https://github.com/oobabooga/text-generation-webui-extensions

# SuperBoogav2（RAG/长期记忆）

# 已包含，在 UI 中启用

启用扩展

会话选项卡 → 扩展
勾选所需扩展的复选框
点击 应用并重启

性能调优

GGUF 设置

n_gpu_layers: 35    # GPU 层数（更多 = 更快）
n_ctx: 4096         # 上下文长度
n_batch: 512        # 批次大小
threads: 8          # CPU 线程数

内存优化

对于显存受限的情况：

python server.py --listen --n-gpu-layers 20 --no-mmap

速度优化


# 使用带 cuBLAS 的 llama.cpp
python server.py --listen --loader llama.cpp --n-gpu-layers 50 --threads 8

微调（LoRA）

训练选项卡

前往训练选项卡
加载基础模型
上传数据集（JSON 格式）
配置：
- LoRA 秩：8-32
- 学习率：1e-4
- 训练轮数：3-5
开始训练

数据集格式

[
  {"instruction": "Summarize this:", "input": "Long text...", "output": "Summary..."},
  {"instruction": "Translate to French:", "input": "Hello", "output": "Bonjour"}
]

保存您的工作


# 保存模型
rsync -avz /workspace/text-generation-webui/models/ backup-server:/models/

# 保存角色
rsync -avz /workspace/text-generation-webui/characters/ backup-server:/characters/

# 保存 LoRA
rsync -avz /workspace/text-generation-webui/loras/ backup-server:/loras/

# 使用固定种子以获得一致结果

模型无法加载

检查显存使用情况： nvidia-smi
减少 n_gpu_layers
使用更小的量化（Q4_K_M → Q4_K_S）

生成速度慢

增加 n_gpu_layers
使用 EXL2 代替 GGUF
启用 --no-mmap

内存不足

在生成期间 - 减少 `n_ctx`（上下文长度） - 使用 `--n-gpu-layers 0` 仅使用 CPU - 尝试更小的模型

下载所有所需的检查点

检查文件完整性

GPU

验证 CUDA 兼容性

费用估算

CLORE.AI 市场的典型费率（截至 2024 年）：

按小时费率

~$0.03

~$0.70

~$0.12

速度

~$0.06

~$1.50

~$0.25

512x512

~$0.10

~$2.30

~$0.40

按日费率

~$0.17

~$4.00

~$0.70

4 小时会话

~$0.25

~$6.00

~$1.00

RTX 3060 CLORE.AI 市场 A100 40GB

A100 80GB

使用竞价价格随提供商和需求而异。请查看
以获取当前费率。 CLORE 节省费用：
市场用于灵活工作负载（通常便宜 30-50%）

上一页Llama.cpp 服务器下一页ExLlamaV2

最后更新于24天前

这有帮助吗？

文本生成 WebUI

在 CLORE.AI 上租用

访问您的服务器

为什么选择 Text Generation WebUI？

要求

快速部署

手动安装

访问您的服务

访问 WebUI

下载模型

来自 HuggingFace（在 WebUI 中）

通过命令行

推荐模型

加载模型

GGUF（推荐大多数用户）

GPTQ（快速，量化）

EXL2（最快）

聊天配置

角色设置

指令模式

API 使用

启用 API

兼容 OpenAI 的 API

原生 API

扩展

安装扩展

启用扩展

热门扩展

性能调优

GGUF 设置

内存优化

速度优化

微调（LoRA）

训练选项卡

数据集格式

保存您的工作

# 使用固定种子以获得一致结果

模型无法加载

生成速度慢

下载所有所需的检查点

hashtag在 CLORE.AI 上租用

hashtag访问您的服务器

hashtag为什么选择 Text Generation WebUI？

hashtag要求

hashtag快速部署

hashtag手动安装

hashtag访问您的服务

hashtag访问 WebUI

hashtag下载模型

hashtag来自 HuggingFace（在 WebUI 中）

hashtag通过命令行

hashtag推荐模型

hashtag加载模型

hashtagGGUF（推荐大多数用户）

hashtagGPTQ（快速，量化）

hashtagEXL2（最快）

hashtag聊天配置

hashtag角色设置

hashtag指令模式

hashtagAPI 使用

hashtag启用 API

hashtag兼容 OpenAI 的 API

hashtag原生 API

hashtag扩展

hashtag安装扩展

hashtag启用扩展

hashtag热门扩展

hashtag性能调优

hashtagGGUF 设置

hashtag内存优化

hashtag速度优化

hashtag微调（LoRA）

hashtag训练 选项卡

hashtag数据集格式

hashtag保存您的工作

hashtag# 使用固定种子以获得一致结果

hashtag模型无法加载

hashtag生成速度慢

hashtag下载所有所需的检查点

在 CLORE.AI 上租用

访问您的服务器

为什么选择 Text Generation WebUI？

要求

快速部署

手动安装

访问您的服务

访问 WebUI

下载模型

来自 HuggingFace（在 WebUI 中）

通过命令行

推荐模型

加载模型

GGUF（推荐大多数用户）

GPTQ（快速，量化）

EXL2（最快）

聊天配置

角色设置

指令模式

API 使用

启用 API

兼容 OpenAI 的 API

原生 API

扩展

安装扩展

启用扩展

热门扩展

性能调优

GGUF 设置

内存优化

速度优化

微调（LoRA）

训练选项卡

数据集格式

保存您的工作

# 使用固定种子以获得一致结果

模型无法加载

生成速度慢

下载所有所需的检查点