ExLlamaV2
在 Clore.ai GPU 上使用 ExLlamaV2 实现极致速度的 LLM 推理
在 CLORE.AI 上租用
访问您的服务器
什么是 ExLlamaV2?
要求
模型大小
最小显存
推荐
快速部署
访问您的服务
安装
下载模型
EXL2 量化模型
每权重位数(bpw)
BPW
质量
显存(7B)
Python API
基础生成
流式生成
聊天格式
服务器模式
启动服务器
API 使用
聊天补全
TabbyAPI(推荐的服务器)
TabbyAPI 功能
预测性解码
对您自己的模型进行量化
转换为 EXL2
命令行
内存管理
缓存分配
多 GPU
性能比较
A100
引擎
GPU
每秒标记数
高级设置
采样参数
批量生成
# 使用固定种子以获得一致结果
CUDA 显存不足
加载缓慢
未找到模型
与 LangChain 集成
下载所有所需的检查点
GPU
验证 CUDA 兼容性
费用估算
CLORE.AI 市场的典型费率(截至 2024 年):
使用以下方式支付
最后更新于
这有帮助吗?