Jan.ai 离线助手

在 Clore.ai 上部署 Jan.ai 服务器 —— 完全离线、兼容 OpenAI 的 LLM 服务器,带有模型中心、对话管理和由 Cortex 引擎驱动的 GPU 加速推理。

概览

Jan.aiarrow-up-right 是一个开源、以隐私为先的 ChatGPT 替代品,拥有超过 40,000 个 GitHub 星标。虽然 Jan 以桌面应用而闻名,但它的服务器组件 — Jan 服务器 — 暴露了一个完全兼容 OpenAI 的 REST API,可以部署在像 Clore.ai 这样的云 GPU 基础设施上。

Jan 服务器构建于 Cortex.cpparrow-up-right 推理引擎之上,这是一个支持高性能运行时,支持 llama.cpp, TensorRT-LLM和 ONNX 后端。在 Clore.ai 上你可以以低至 $0.20/小时的价格租用 GPU 服务器,使用 Docker Compose 运行 Jan 服务器,加载任意 GGUF 或 GPTQ 模型,并通过兼容 OpenAI 的 API 提供服务 — 所有数据都不会离开机器。

主要功能:

  • 🔒 100% 离线 — 数据绝不会离开你的服务器

  • 🤖 兼容 OpenAI 的 API (/v1/chat/completions, /v1/models,等.)

  • 📦 带一键模型下载的模型中心

  • 🚀 通过 CUDA 提供的 GPU 加速(llama.cpp + TensorRT-LLM 后端)

  • 💬 内置会话管理和线程历史

  • 🔌 可在现有应用中作为 OpenAI 的直接替代品


要求

硬件要求

方案
GPU
显存
内存
存储
Clore.ai 价格

最低

RTX 3060 12GB

12 GB

16 GB

50 GB SSD

约 $0.10/小时

推荐

速度

24 GB

32 GB

100 GB SSD

~$0.20/小时

高端

512x512

24 GB

64 GB

200 GB SSD

~$0.35/小时

大型模型

4 小时会话

80 GB

128 GB

500 GB SSD

~$1.10/小时

模型显存参考

A100
所需显存
推荐 GPU

Llama 3.1 8B (Q4)

~5 GB

按小时费率

Llama 3.1 8B(FP16)

~16 GB

速度

Llama 3.3 70B(Q4)

~40 GB

按日费率

Llama 3.1 405B(Q4)

约 220 GB

4× A100 80GB

Mistral 7B(Q4)

约 4 GB

按小时费率

Qwen2.5 72B (Q4)

~45 GB

4 小时会话

软件先决条件

  • 具有已充值钱包的 Clore.ai 账户

  • 基本的 Docker 知识

  • (可选)用于端口转发的 OpenSSH 客户端


快速开始

第 1 步 — 在 Clore.ai 上租用 GPU 服务器

  1. 浏览到 clore.aiarrow-up-right 并登录

  2. 筛选服务器: GPU 类型 → RTX 3090 或更好, 已预装 Docker → 已启用

  3. 选择一个服务器并选择 已预装 Docker 部署选项

  4. 使用官方 nvidia/cuda:12.1.0-devel-ubuntu22.04 基础镜像或任何 CUDA 镜像

  5. 打开端口: 1337 (Jan Server API), 39281 (Cortex API), 22 (SSH)

步骤 2 — 连接到你的服务器

步骤 3 — 安装 Docker Compose(如果未安装)

步骤 4 — 使用 Docker Compose 部署 Jan 服务器

如果上游的 compose 文件不可用或你想完全控制,请手动创建:

步骤 5 — 验证服务器是否正在运行

步骤 6 — 拉取你的第一个模型

步骤 7 — 启动模型并聊天


配置

使用环境变量进行 SSH 和 Jupyter 访问:

变量
默认值
4s

JAN_API_HOST

0.0.0.0

绑定 API 服务器的主机

JAN_API_PORT

1337

Jan 服务器 API 端口

CORTEX_API_PORT

39281

内部 Cortex 引擎端口

CUDA_VISIBLE_DEVICES

全部

要暴露哪些 GPU(以逗号分隔的索引)

JAN_DATA_FOLDER

/root/jan

Jan 数据文件夹路径

CORTEX_MODELS_PATH

/root/cortex/models

模型存储路径

多 GPU 配置

对于具有多 GPU 的服务器(例如在 Clore.ai 上的 2× RTX 3090):

或者为特定 GPU 专用:

自定义模型配置

使用令牌保护 API

Jan 服务器默认不包含认证。使用 Nginx 作为反向代理:


GPU 加速

验证 CUDA 加速

Jan 服务器的 Cortex 引擎会自动检测 CUDA。验证它是否使用 GPU:

切换推理后端

Cortex 支持多种后端:

上下文窗口和批量大小调优

参数
4s
建议

ngl

GPU 层数(越高 = 使用更多 GPU)

设置为 99 以最大化 GPU

ctx_len

上下文窗口大小

根据显存为 4096–32768

n_batch

用于提示处理的批量大小

RTX 3090 使用 512,较小的显卡使用 256

n_parallel

并发请求插槽数

用于 API 服务器时建议 4–8


提示与最佳实践

🎯 针对 Clore.ai 预算的模型选择

💾 持久化模型存储

由于 Clore.ai 实例是短暂的,考虑挂载外部存储:

🔗 将 Jan 服务器用作 OpenAI 的直接替代

📊 监控资源使用情况


# 使用固定种子以获得一致结果

容器无法启动 — 找不到 GPU

模型下载卡住或失败

显存不足(CUDA 内存不足)

无法从容器外部连接到 API

推理缓慢(回退到 CPU)


延伸阅读

💡 成本提示: 在 Clore.ai 上的一块 RTX 3090(约 $0.20/小时)可以以 约 50 令牌/秒 — 足以用于个人或低流量 API。对于生产工作负载,考虑在 A100 上使用 vLLM(参见 vLLM 指南).

最后更新于

这有帮助吗?