PowerInfer
什么是 PowerInfer?
关键能力
为什么在 Clore.ai 上使用 PowerInfer?
硬件要求
模型规模
最低显存
推荐内存
性能
在 Clore.ai 上快速开始
步骤 1:选择服务器
步骤 2:创建自定义 Docker 镜像
步骤 3:在 Clore.ai 上部署
从源码构建 PowerInfer
验证构建
获取模型
下载 GGUF 模型
生成神经元预测器(PowerInfer 必需)
运行推理
基本推理(无预测器)
PowerInfer 模式(使用预测器)
交互聊天模式
服务模式(兼容 OpenAI 的 API)
优化 GPU 层划分
GPU 显存
7B 模型
13B 模型
34B 模型
70B 模型
性能基准
吞吐量对比(Llama 2 70B,RTX 3090)
引擎
GPU 层数
每秒标记数(Tokens/sec)
作为服务运行
API 使用
故障排除
CUDA 显存不足
CPU 推理缓慢
构建失败
Clore.ai 的 GPU 建议
GPU
显存
Clore.ai 价格
最大模型(Q4)
吞吐量(Llama 2 70B Q4)
资源
最后更新于
这有帮助吗?