Llama.cpp 服务器

在 Clore.ai GPU 上使用 llama.cpp 服务器实现高效 LLM 推理

在 GPU 上使用 llama.cpp 服务器高效运行大型语言模型(LLM)。

circle-check

服务器要求

参数
最低
推荐

内存

8GB

16GB+

显存

6GB

8GB+

网络

200Mbps

500Mbps+

启动时间

约 2-5 分钟

-

circle-info

由于 GGUF 量化,Llama.cpp 内存效率高。7B 模型可在 6-8GB 显存上运行。

在 CLORE.AI 上租用

  1. 按 GPU 类型、显存和价格筛选

  2. 选择 按需 (固定费率)或 竞价 (出价价格)

  3. 配置您的订单:

    • 选择 Docker 镜像

    • 设置端口(用于 SSH 的 TCP,Web 界面的 HTTP)

    • 如有需要,添加环境变量

    • 输入启动命令

  4. 选择支付方式: CLORE, BTC,或 USDT/USDC

  5. 创建订单并等待部署

访问您的服务器

  • 在以下位置查找连接详情: 我的订单

  • Web 界面:使用 HTTP 端口的 URL

  • SSH: ssh -p <port> root@<proxy-address>

什么是 Llama.cpp?

Llama.cpp 是用于 LLM 的最快的 CPU/GPU 推理引擎:

  • 支持 GGUF 量化模型

  • 低内存使用

  • 兼容 OpenAI 的 API

  • 支持多用户

量化等级

格式
大小(7B)
性能
质量

Q2_K

2.8GB

最快

Q4_K_M

4.1GB

快速

良好

Q5_K_M

4.8GB

中等

很棒

Q6_K

5.5GB

较慢

优秀

Q8_0

7.2GB

最慢

最佳

快速部署

Docker 镜像:

端口:

命令:

访问您的服务

部署后,在以下位置查找您的 http_pub URL: 我的订单:

  1. 前往 我的订单 页面

  2. 单击您的订单

  3. 查找 http_pub URL(例如, abc123.clorecloud.net)

使用 https://YOUR_HTTP_PUB_URL 而不是 localhost 在下面的示例中。

验证是否正常运行

circle-exclamation

完整 API 参考

标准端点

端点
方法
4s

/health

GET

健康检查

/v1/models

GET

列出模型

/v1/chat/completions

POST

聊天(兼容 OpenAI)

/v1/completions

POST

文本补全(兼容 OpenAI)

/v1/embeddings

POST

生成嵌入

/completion

POST

原生补全端点

/tokenize

POST

对文本进行分词

/detokenize

POST

将标记还原为文本

/props

GET

服务器属性

/metrics

GET

Prometheus 指标

对文本分词

响应:

服务器属性

响应:

从源码构建

下载模型

服务器选项

基础服务器

完全 GPU 卸载

全部选项

API 使用

聊天补全(兼容 OpenAI)

流式传输

文本补全

嵌入

cURL 示例

对话

补全

健康检查

指标

多 GPU

内存优化

针对有限显存

为了获得最大速度

针对模型的模板

Llama 2 聊天

Mistral 指导式

ChatML(多模型)

Python 服务器封装

基准测试

性能比较

A100
GPU
量化
每秒标记数

Llama 3.1 8B

速度

Q4_K_M

~100

Llama 3.1 8B

512x512

Q4_K_M

~150

Llama 3.1 8B

速度

Q4_K_M

~60

Mistral 7B

速度

Q4_K_M

~110

Mixtral 8x7B

2s

Q4_K_M

~50

# 使用固定种子以获得一致结果

检测不到 CUDA

内存不足

生成速度慢

生产环境设置

Systemd 服务

与 nginx 一起

下载所有所需的检查点

检查文件完整性

GPU
验证 CUDA 兼容性
费用估算
CLORE.AI 市场的典型费率(截至 2024 年):

按小时费率

~$0.03

~$0.70

~$0.12

速度

~$0.06

~$1.50

~$0.25

512x512

~$0.10

~$2.30

~$0.40

按日费率

~$0.17

~$4.00

~$0.70

4 小时会话

~$0.25

~$6.00

~$1.00

RTX 3060 CLORE.AI 市场arrow-up-right A100 40GB

A100 80GB

  • 使用 竞价 价格随提供商和需求而异。请查看

  • 以获取当前费率。 CLORE 节省费用:

  • 市场用于灵活工作负载(通常便宜 30-50%)

使用以下方式支付

最后更新于

这有帮助吗?