ExLlamaV2

在 Clore.ai GPU 上使用 ExLlamaV2 实现极致速度的 LLM 推理

使用 ExLlamaV2 以最大速度运行大型语言模型。

circle-check

在 CLORE.AI 上租用

  1. 按 GPU 类型、显存和价格筛选

  2. 选择 按需 (固定费率)或 竞价 (出价价格)

  3. 配置您的订单:

    • 选择 Docker 镜像

    • 设置端口(用于 SSH 的 TCP,Web 界面的 HTTP)

    • 如有需要,添加环境变量

    • 输入启动命令

  4. 选择支付方式: CLORE, BTC,或 USDT/USDC

  5. 创建订单并等待部署

访问您的服务器

  • 在以下位置查找连接详情: 我的订单

  • Web 界面:使用 HTTP 端口的 URL

  • SSH: ssh -p <port> root@<proxy-address>

什么是 ExLlamaV2?

ExLlamaV2 是用于大型语言模型的最快推理引擎:

  • 比其他引擎快 2-3 倍

  • 出色的量化(EXL2)

  • 较低的显存使用

  • 支持推测解码

要求

模型大小
最小显存
推荐

7B

6GB

按小时费率

13B

10GB

速度

34B

20GB

512x512

70B

40GB

2s

快速部署

Docker 镜像:

端口:

命令:

访问您的服务

部署后,在以下位置查找您的 http_pub URL: 我的订单:

  1. 前往 我的订单 页面

  2. 单击您的订单

  3. 查找 http_pub URL(例如, abc123.clorecloud.net)

使用 https://YOUR_HTTP_PUB_URL 而不是 localhost 在下面的示例中。

安装

下载模型

EXL2 量化模型

每权重位数(bpw)

BPW
质量
显存(7B)

2.0

~3GB

3.0

良好

~4GB

4.0

很棒

~5GB

5.0

优秀

~6GB

6.0

接近 FP16

~7GB

Python API

基础生成

流式生成

聊天格式

服务器模式

启动服务器

API 使用

聊天补全

TabbyAPI(推荐的服务器)

TabbyAPI 提供功能丰富的 ExLlamaV2 服务器:

TabbyAPI 功能

  • 兼容 OpenAI 的 API

  • 支持多模型

  • LoRA 热插拔

  • 流式传输

  • 函数调用

  • 管理 API

预测性解码

使用更小的模型来加速生成:

对您自己的模型进行量化

转换为 EXL2

命令行

内存管理

缓存分配

多 GPU

性能比较

A100
引擎
GPU
每秒标记数

Llama 3.1 8B

ExLlamaV2

速度

~150

Llama 3.1 8B

llama.cpp

速度

~100

Llama 3.1 8B

vLLM

速度

~120

Llama 3.1 8B

ExLlamaV2

速度

~90

Mixtral 8x7B

ExLlamaV2

2s

~70

高级设置

采样参数

批量生成

# 使用固定种子以获得一致结果

CUDA 显存不足

加载缓慢

未找到模型

与 LangChain 集成

下载所有所需的检查点

检查文件完整性

GPU
验证 CUDA 兼容性
费用估算
CLORE.AI 市场的典型费率(截至 2024 年):

按小时费率

~$0.03

~$0.70

~$0.12

速度

~$0.06

~$1.50

~$0.25

512x512

~$0.10

~$2.30

~$0.40

按日费率

~$0.17

~$4.00

~$0.70

4 小时会话

~$0.25

~$6.00

~$1.00

RTX 3060 CLORE.AI 市场arrow-up-right A100 40GB

A100 80GB

  • 使用 竞价 价格随提供商和需求而异。请查看

  • 以获取当前费率。 CLORE 节省费用:

  • 市场用于灵活工作负载(通常便宜 30-50%)

使用以下方式支付

最后更新于

这有帮助吗?