Ollama

在 Clore.ai GPU 上使用 Ollama 本地运行 LLM

在 CLORE.AI GPU 上本地运行大型语言模型(LLM)的最简单方法。

circle-info

当前版本:v0.6+ — 本指南涵盖 Ollama v0.6 及更高版本。主要新增功能包括结构化输出(JSON 模式强制)、兼容 OpenAI 的 embeddings 端点(/api/embed),以及并发模型加载(无需交换即可同时运行多个模型)。详见 v0.6+ 新特性 了解详情。

circle-check

服务器要求

参数
最低
推荐

内存

8GB

16GB+

显存

6GB

8GB+

网络

100Mbps

500Mbps+

启动时间

~30 秒

-

circle-info

Ollama 轻量且适用于大多数 GPU 服务器。对于更大的模型(13B+),请选择具有 16GB+ 内存和 12GB+ 显存的服务器。

为什么选择 Ollama?

  • 一键安装 - 无需 Python,无需依赖项

  • 模型库 - 使用以下命令下载模型 ollama pull

  • 兼容 OpenAI 的 API - 即插即用替代方案

  • GPU 加速 - 自动检测 CUDA

  • 多模型 - 同时运行多个模型(v0.6+)

在 CLORE.AI 上快速部署

Docker 镜像:

端口:

命令:

验证是否正常运行

部署后,在以下位置查找您的 http_pub URL: 我的订单 并测试:

circle-exclamation

访问您的服务

部署在 CLORE.AI 上时,可通过以下方式访问你的 Ollama 实例: http_pub URL:

circle-info

全部 localhost:11434 下面的示例在通过 SSH 连接时可用。若需外部访问,请替换为你的 https://your-http-pub.clorecloud.net/ URL。

安装

使用 Docker(推荐)

手动安装

此单条命令会安装最新版本的 Ollama、设置 systemd 服务并自动配置 GPU 检测。适用于 Ubuntu、Debian、Fedora 及大多数现代 Linux 发行版。

运行模型

拉取并运行

流行模型

A100
规模
模型变体

llama3.2

3B

快速、通用

llama3.1

8B

更高质量

llama3.1:70b

70B

最佳质量

mistral

7B

快速、质量良好

mixtral

47B

MoE,高质量

codellama

7-34B

代码生成

deepseek-coder-v2

16B

最适合代码

deepseek-r1

7B-671B

推理模型

deepseek-r1:32b

32B

均衡的推理能力

qwen2.5

7B

多语言

qwen2.5:72b

72B

最佳 Qwen 质量

phi4

14B

微软最新模型

gemma2

9B

谷歌的模型

1024x1024

v0.6+ 新特性

Ollama v0.6 为生产工作负载引入了若干主要功能:

结构化输出(JSON 模式)

强制模型响应符合特定的 JSON 模式。适用于需要可靠、可解析输出的应用:

带结构化输出的 Python 示例:

兼容 OpenAI 的 Embeddings 端点(/api/embed)

v0.6+ 新增: /api/embed 端点与 OpenAI 完全兼容,并支持批量输入:

OpenAI 客户端可直接与之配合使用 /v1/embeddings:

流行的 embedding 模型:

并发模型加载

在 v0.6 之前,Ollama 会卸载一个模型以加载另一个。v0.6+ 支持同时运行多个模型,受限于可用显存:

配置并发:

这在以下场景尤其有用:

  • 对不同模型进行 A/B 测试

  • 针对不同任务的专用模型(编码 + 聊天)

  • 将常用模型保持在显存中以减少加载延迟

API 使用

聊天补全

circle-info

添加 "stream": false 以一次性获取完整响应而非流式接收。

兼容 OpenAI 的端点

流式传输

嵌入

文本生成(非聊天)

完整 API 参考

所有端点既支持 http://localhost:11434 (通过 SSH)和 https://your-http-pub.clorecloud.net (外部)。

模型管理

端点
方法
4s

/api/tags

GET

列出所有已下载的模型

/api/show

POST

获取模型详情

/api/pull

POST

下载模型

/api/delete

DELETE

移除模型

/api/ps

GET

列出当前正在运行的模型

/api/version

GET

获取 Ollama 版本

列出模型

响应:

显示模型详情

通过 API 拉取模型

响应:

circle-exclamation

删除模型

列出正在运行的模型

响应:

获取版本

响应:

推理端点

端点
方法
4s

端点并使用

POST

文本补全

和兼容 OpenAI 的端点不

POST

聊天补全

/api/embeddings

POST

生成 embeddings(旧版)

/api/embed

POST

生成 embeddings v0.6+(批量,兼容 OpenAI)

/v1/chat/completions

POST

兼容 OpenAI 的聊天

/v1/embeddings

POST

兼容 OpenAI 的 embeddings

自定义模型创建

通过 API 使用特定系统提示创建自定义模型:

GPU 配置

检查 GPU 使用情况

多 GPU

Ollama 会自动使用可用 GPU。若需指定 GPU:

内存管理

自定义模型(Modelfile)

使用系统提示创建自定义模型:

作为服务运行

Systemd

性能优化建议

  1. 使用合适的量化

    • Q4_K_M 以提升速度

    • Q8_0 以提升质量

    • fp16 以获得最高质量

  2. 根据显存匹配模型

    • 8GB:7B 模型(Q4)

    • 16GB:13B 模型或 7B(Q8)

    • 24GB:34B 模型(Q4)

    • 48GB+:70B 模型

  3. 保持模型加载

  4. 快速 SSD 提升性能

    • 模型加载和 KV 缓存受益于快速存储

    • 配备 NVMe SSD 的服务器可实现 2-3 倍的性能提升

基准测试

生成速度(tokens/sec)

A100
按小时费率
速度
512x512
按日费率

Llama 3.2 3B (Q4)

120

160

200

220

Llama 3.1 8B (Q4)

60

100

130

150

Llama 3.1 8B (Q8)

45

80

110

130

Mistral 7B(Q4)

70

110

140

160

Mixtral 8x7B (Q4)

-

35

55

75

Llama 3.1 70B(Q4)

-

-

18

35

DeepSeek-R1 7B (Q4)

65

105

135

155

DeepSeek-R1 32B (Q4)

-

-

22

42

Qwen2.5 72B (Q4)

-

-

15

30

Phi-4 14B (Q4)

-

50

75

90

基准测试更新于 2026 年 1 月。实际速度可能因服务器配置而异。

首个标记时间(ms)

A100
速度
512x512
2s

3B

50

35

25

7-8B

120

80

60

13B

250

150

100

34B

600

350

200

70B

-

1200

500

上下文长度与显存(Q4)

A100
2K 上下文
4K 上下文
8K 上下文
16K 上下文

7B

5GB

6GB

8GB

12GB

13B

8GB

10GB

14GB

22GB

34B

20GB

24GB

32GB

48GB

70B

40GB

48GB

64GB

96GB

GPU 要求

A100
Q4 显存
Q8 显存

3B

3GB

5GB

7-8B

5GB

9GB

13B

8GB

15GB

34B

20GB

38GB

70B

40GB

75GB

下载所有所需的检查点

典型 CLORE.AI 市场价格:

GPU
显存
价格/天
适合

按小时费率

12GB

$0.15–0.30

7B 模型

速度

24GB

$0.30–1.00

13B-34B 模型

512x512

24GB

$0.50–2.00

34B 模型,快速

2s

40GB

$1.50–3.00

70B 模型

价格以美元/天计。费率因提供商而异——请查看 CLORE.AI 市场arrow-up-right A100 40GB

# 使用固定种子以获得一致结果

模型无法加载

生成速度慢

连接被拒绝

http_pub URL 返回 HTTP 502

这表示服务仍在启动中。等待 30-60 秒后重试:

使用以下方式支付

最后更新于

这有帮助吗?