AnythingLLM RAG 平台

在 Clore.ai 上部署 AnythingLLM —— 一体化 RAG 应用与 AI 代理平台,内置文档聊天、无代码代理构建器和 MCP 支持,在经济高效的 GPU 云服务器上运行。

概览

AnythingLLMarrow-up-right 是一个功能完备的开源 AI 工作区,拥有 40K+ 的 GitHub 星标。它将基于文档的 RAG(检索增强生成)、AI 代理和无代码代理构建器整合到一个自托管应用中 —— 通过干净、直观的界面管理,设置无需编程。

为什么在 Clore.ai 上运行 AnythingLLM?

  • 开箱即用的完整 RAG 管道 — 上传 PDF、Word 文档、网站和 YouTube 转录。AnythingLLM 会自动分块、嵌入并存储它们以用于语义搜索。

  • 应用不需要 GPU — AnythingLLM 默认使用基于 CPU 的嵌入。可将其与在 Clore.ai 上运行 Ollama 或 vLLM 的 GPU 服务器配对以进行本地推理。

  • 具有真实工具的 AI 代理 — 内置代理可以浏览网页、编写并执行代码、管理文件和调用外部 API —— 所有这些都通过 GUI 编排。

  • MCP 兼容性 — 与 Model Context Protocol 生态集成,以扩展工具连接性。

  • 工作区隔离 — 为不同项目或团队创建具有不同知识库和 LLM 设置的独立工作区。

架构概览

┌─────────────────────────────────────────────┐
│            AnythingLLM (端口 3001)           │
│                                             │
│  ┌──────────┐  ┌──────────┐  ┌──────────┐  │
│  │ RAG/文档 │  │  代理    │  │  用户    │  │
│  └────┬─────┘  └────┬─────┘  └──────────┘  │
│       │             │                       │
│  ┌────▼─────────────▼───────┐               │
│  │    LLM 提供者路由器       │               │
│  └──────────────┬───────────┘               │
└─────────────────┼───────────────────────────┘

     ┌────────────┼────────────┐
     ▼            ▼            ▼
  OpenAI       Anthropic    Ollama(本地)
  Claude        Gemini      vLLM(本地)

要求

服务器规格

组件
最低
推荐
注意事项

GPU

不需要

RTX 3090(如使用本地 LLM)

仅适用于 Ollama/vLLM 后端

显存

24 GB

用于本地模型推理

CPU

2 vCPU

4 个 vCPU

嵌入在 CPU 上运行

内存

4 GB

8 GB

更多 = 内存中更大的文档索引

存储

10 GB

50+ GB

文档存储、向量数据库、模型缓存

Clore.ai 价格参考

服务器类型
大致费用
模型变体

CPU 实例(4 vCPU,8 GB 内存)

约 $0.05–0.10/小时

AnythingLLM + 外部 API 提供商

RTX 3090(24 GB 显存)

~$0.20/小时

AnythingLLM + Ollama 本地 LLMs

RTX 4090(24 GB 显存)

~$0.35/小时

AnythingLLM + 更快的本地推理

A100 80 GB

~$1.10/小时

AnythingLLM + 大型 70B+ 模型

💡 专业提示: AnythingLLM 的内置嵌入(LanceDB + 本地 CPU 嵌入器)无需 GPU 即可工作。对于 LLM 后端,你可以使用 OpenRouter 或 Groq 等免费额度 API 提供商以将成本保持在最低。

先决条件

  • 带 SSH 访问的 Clore.ai 服务器

  • Docker(Clore.ai 服务器上预装)

  • 至少一个 LLM API 密钥 本地 Ollama/vLLM 后端


快速开始

方法 1:单个 Docker 容器(推荐)

官方的单容器部署包含所有内容:Web UI、LanceDB 向量存储和文档处理器。

步骤 1:连接到你的 Clore.ai 服务器

步骤 2:设置存储目录

步骤 3:运行 AnythingLLM

原因 --cap-add SYS_ADMIN? AnythingLLM 使用 Chromium 进行网页抓取和 PDF 渲染,这需要容器提升的能力(capabilities)。

步骤 4:验证启动

步骤 5:完成设置向导

在浏览器中打开:

首次设置向导将引导你完成:

  1. 创建管理员账户

  2. 选择 LLM 提供者

  3. 选择嵌入模型

  4. 配置你的第一个工作区


方法 2:Docker Compose(多服务)

用于具有独立服务和更易管理的生产部署:

步骤 1:创建项目目录

步骤 2:创建 docker-compose.yml

步骤 3:创建 .env 文件

步骤 4:启动


方法 3:使用预配置环境变量

用于无需设置向导的自动化部署:


配置

LLM 提供者选项

AnythingLLM 支持多种 LLM 后端。在 UI 中于以下位置设置 设置 → LLM 偏好,或通过环境变量:

OpenAI:

Anthropic Claude:

Google Gemini:

Ollama(本地):

OpenRouter(访问 100+ 模型):

嵌入配置

引擎
后端
需要 GPU
质量

native

CPU(内置)

良好

openai

OpenAI API

优秀

ollama

本地 Ollama

可选

良好-优秀

localai

LocalAI

可选

变量

向量数据库选项

数据库
4s
最适合

lancedb

内置,无需配置

默认,适用于小到中等数据集

chroma

ChromaDB(外部)

中等数据集,灵活性高

pinecone

Pinecone 云

大型数据集,生产环境

weaviate

Weaviate(自托管)

高级用例

工作区配置

AnythingLLM 工作区是具有自身以下内容的隔离环境:

  • 文档知识库

  • LLM 设置(可覆盖全局设置)

  • 聊天历史

  • 代理配置

通过 UI 或 API 创建工作区:

文档摄取

通过 UI 或 API 上传文档:


GPU 加速

AnythingLLM 本身在 CPU 上运行。GPU 加速适用于 LLM 推理后端。

在同一 Clore.ai 服务器上运行 Ollama

Clore.ai 上的 GPU-模型性能

A100
GPU
显存
嵌入速度
推理速度
每小时成本

Llama 3.2 3B

速度

2 GB

快速

60–80 tok/s

~$0.20

Llama 3.1 8B

速度

6 GB

快速

40–60 tok/s

~$0.20

Mistral 7B

速度

5 GB

快速

45–65 tok/s

~$0.20

Llama 3.1 70B

4 小时会话

40 GB

中等

20–35 tok/s

~$1.10


提示与最佳实践

文档摄取最佳实践

  • 预处理大型 PDF — 含大量 OCR 的扫描会减慢摄取速度。事先使用 pdftotext 或 Adobe OCR。

  • 按工作区组织 — 为每个项目/领域创建独立工作区以提高检索精确度。

  • 使用针对性的查询 — RAG 对具体问题效果最佳,而非宽泛请求。

在 Clore.ai 上的成本管理

由于 Clore.ai 实例是短暂的,请始终备份存储目录。它包含:

  • 向量嵌入(LanceDB)

  • 已上传的文档

  • 聊天历史

  • 代理配置

多用户设置

AI 代理配置

AnythingLLM 代理可以执行真实世界任务。在以下位置启用工具 设置 → 代理:

  • 网页浏览 — 抓取并读取网页

  • Google 搜索 — 搜索 Google(需要 API 密钥)

  • 代码解释器 — 在沙箱中执行 Python

  • GitHub — 读取代码仓库

  • SQL 连接器 — 查询数据库

性能调优

更新 AnythingLLM


# 使用固定种子以获得一致结果

容器启动但 UI 无法访问

文档上传失败

RAG 响应质量差 / 幻觉问题

常见原因与修复:

AnythingLLM 无法连接到 Ollama

内存耗尽 / 容器崩溃


延伸阅读

最后更新于

这有帮助吗?