Llama.cpp 服务器
在 Clore.ai GPU 上使用 llama.cpp 服务器实现高效 LLM 推理
服务器要求
参数
最低
推荐
在 CLORE.AI 上租用
访问您的服务器
什么是 Llama.cpp?
量化等级
格式
大小(7B)
性能
质量
快速部署
访问您的服务
验证是否正常运行
完整 API 参考
标准端点
端点
方法
4s
对文本分词
服务器属性
从源码构建
下载模型
服务器选项
基础服务器
完全 GPU 卸载
全部选项
API 使用
聊天补全(兼容 OpenAI)
流式传输
文本补全
嵌入
cURL 示例
对话
补全
健康检查
指标
多 GPU
内存优化
针对有限显存
为了获得最大速度
针对模型的模板
Llama 2 聊天
Mistral 指导式
ChatML(多模型)
Python 服务器封装
基准测试
性能比较
A100
GPU
量化
每秒标记数
# 使用固定种子以获得一致结果
检测不到 CUDA
内存不足
生成速度慢
生产环境设置
Systemd 服务
与 nginx 一起
下载所有所需的检查点
GPU
验证 CUDA 兼容性
费用估算
CLORE.AI 市场的典型费率(截至 2024 年):
使用以下方式支付
最后更新于
这有帮助吗?