Платформа RAG AnythingLLM

Разверните AnythingLLM на Clore.ai — универсальное приложение RAG и платформа AI-агентов с встроенным чатом по документам, конструктором агентов без кода и поддержкой MCP на экономичных GPU-облачных серверах.

Обзор

AnythingLLMarrow-up-right полнофункциональное open-source AI-рабочее пространство с более чем 40 тыс. звёзд на GitHub. Объединяет документно-ориентированный RAG (Retrieval-Augmented Generation), AI-агентов и конструктор агентов без кода в одном саморазмещаемом приложении — всё управляется через чистый интуитивный UI, для настройки которого не требуется программирование.

Зачем запускать AnythingLLM на Clore.ai?

  • Полный RAG-пайплайн из коробки — Загружайте PDF, Word-документы, веб-сайты и стенограммы YouTube. AnythingLLM автоматически делит на фрагменты, встраивает и сохраняет их для семантического поиска.

  • Для приложения не требуется GPU — По умолчанию AnythingLLM использует CPU-эмбеддинги. Сопоставьте его с GPU-сервером Clore.ai, работающим с Ollama или vLLM, для локального вывода.

  • AI-агенты с реальными инструментами — Встроенные агенты могут просматривать веб, писать и выполнять код, управлять файлами и вызывать внешние API — всё оркеструется через GUI.

  • Совместимость с MCP — Интегрируется с экосистемой Model Context Protocol для расширенной связности инструментов.

  • Изоляция рабочих пространств — Создавайте отдельные рабочие пространства с разными базами знаний и настройками LLM для разных проектов или команд.

Обзор архитектуры

┌─────────────────────────────────────────────┐
│            AnythingLLM (порт 3001)          │
│                                             │
│  ┌──────────┐  ┌──────────┐  ┌──────────┐  │
│  │ RAG/Docs │  │  Agents  │  │  Users   │  │
│  └────┬─────┘  └────┬─────┘  └──────────┘  │
│       │             │                       │
│  ┌────▼─────────────▼───────┐               │
│  │    LLM Provider Router   │               │
│  └──────────────┬───────────┘               │
└─────────────────┼───────────────────────────┘

     ┌────────────┼────────────┐
     ▼            ▼            ▼
  OpenAI       Anthropic    Ollama (локально)
  Claude        Gemini      vLLM (локально)

Требования

Спецификации сервера

Компонент
Минимум
Рекомендуется
Примечания

GPU

Не требуется

RTX 3090 (если используются локальные LLM)

Только для бэкенда Ollama/vLLM

VRAM

24 ГБ

Для вывода локальных моделей

CPU

2 vCPU

4 vCPU

Эмбеддинги выполняются на CPU

ОЗУ

4 ГБ

8 ГБ

Больше = больший индекс документов в памяти

Хранилище

10 ГБ

50+ ГБ

Хранение документов, векторная БД, кеш моделей

Справка по ценам Clore.ai

Тип сервера
Примерная стоимость
Случай использования

CPU-инстанс (4 vCPU, 8 GB RAM)

~$0.05–0.10/час

AnythingLLM + внешние провайдеры API

RTX 3090 (24 ГБ VRAM)

≈ $0.20/ч

AnythingLLM + локальные LLM от Ollama

RTX 4090 (24 ГБ VRAM)

≈ $0.35/ч

AnythingLLM + более быстрый локальный вывод

A100 80 GB

≈ $1.10/ч

AnythingLLM + большие модели 70B+

💡 Профессиональный совет: Встроенные эмбеддинги AnythingLLM (LanceDB + локальный CPU-эмбеддер) работают без GPU. Для LLM-бэкенда вы можете использовать провайдеров с бесплатным уровнем, таких как OpenRouter или Groq, чтобы минимизировать расходы.

Требования

  • Сервер Clore.ai с доступом по SSH

  • Docker (предустановлен на серверах Clore.ai)

  • По крайней мере один API-ключ LLM или локальный бэкенд Ollama/vLLM


Быстрый старт

Метод 1: Один Docker-контейнер (рекомендуется)

Официальный деплой в одном контейнере включает всё: веб-интерфейс, векторное хранилище LanceDB и процессор документов.

Шаг 1: Подключитесь к вашему серверу Clore.ai

Шаг 2: Настройте каталог хранения

Шаг 3: Запустите AnythingLLM

Почему --cap-add SYS_ADMIN? AnythingLLM использует Chromium для скрапинга веб-страниц и рендеринга PDF, что требует повышенных возможностей контейнера.

Шаг 4: Проверьте запуск

Шаг 5: Завершите мастер настройки

Откройте в браузере:

Мастер первоначальной настройки проведёт вас через:

  1. Создание учетной записи администратора

  2. Выбор провайдера LLM

  3. Выбор модели эмбеддингов

  4. Настройка вашего первого рабочего пространства


Метод 2: Docker Compose (многоcервисный)

Для продакшн-развёртываний с отдельными сервисами и более простым управлением:

Шаг 1: Создайте каталог проекта

Шаг 2: Создайте docker-compose.yml

Шаг 3: Создайте .env файл

Шаг 4: Запуск


Метод 3: С предварительно настроенными переменными окружения

Для автоматизированного развёртывания без мастера настройки:


Конфигурация

Опции провайдеров LLM

AnythingLLM поддерживает широкий спектр LLM-бэкендов. Настраивается в UI в разделе Settings → LLM Preference, или через переменные окружения:

OpenAI:

Anthropic Claude:

Google Gemini:

Ollama (локально):

OpenRouter (доступ к 100+ моделям):

Конфигурация эмбеддингов

Движок
Бэкенд
Требуется GPU
Качество

native

CPU (встроенный)

Нет

Хорошо

openai

OpenAI API

Нет

Отлично

ollama

Локальный Ollama

Необязательно

Хорошо—Отлично

localai

LocalAI

Необязательно

Переменная

Опции векторной базы данных

БД
Описание
Лучше всего для

lancedb

Встроенная, без настройки

По умолчанию, небольшие—средние наборы данных

chroma

ChromaDB (внешняя)

Средние наборы данных, гибкость

pinecone

Pinecone (облако)

Большие наборы данных, продакшн

weaviate

Weaviate (самостоятельный хостинг)

Продвинутые сценарии использования

Конфигурация рабочего пространства

Рабочие пространства AnythingLLM — это изолированные окружения со своими:

  • Базой знаний документов

  • Настройками LLM (могут переопределять глобальные)

  • Историей чатов

  • Конфигурациями агентов

Создавайте рабочие пространства через UI или API:

Загрузка документов

Загружайте документы через UI или API:


Ускорение с помощью GPU

Сам AnythingLLM работает на CPU. Ускорение GPU применимо к LLM-инференсному бэкенду.

Запуск Ollama на том же сервере Clore.ai

Производительность моделей на GPU в Clore.ai

Модель
GPU
VRAM
Скорость эмбеддинга
Скорость инференса
Стоимость/ч

Llama 3.2 3B

RTX 3090

2 GB

Быстро

60–80 ток/с

~$0.20

Llama 3.1 8B

RTX 3090

6 GB

Быстро

40–60 ток/с

~$0.20

Mistral 7B

RTX 3090

5 ГБ

Быстро

45–65 ток/с

~$0.20

Llama 3.1 70B

A100 80GB

40 ГБ

Средне

20–35 ток/с

~$1.10


Подсказки и лучшие практики

Лучшие практики при загрузке документов

  • Предобрабатывайте большие PDF — OCR-сканы с большим объёмом распознавания замедляют загрузку. Используйте pdftotext или Adobe OCR заранее.

  • Организуйте по рабочим пространствам — Создавайте отдельные рабочие пространства для каждого проекта/домена для лучшей точности поиска.

  • Используйте точные запросы — RAG лучше работает с конкретными вопросами, а не с общими запросами.

Управление затратами на Clore.ai

Поскольку инстансы Clore.ai эфемерны, всегда делайте резервную копию каталога хранения. Он содержит:

  • Векторные эмбеддинги (LanceDB)

  • Загруженные документы

  • Историей чатов

  • Конфигурациями агентов

Настройка для нескольких пользователей

Конфигурация AI-агента

Агенты AnythingLLM могут выполнять реальные задачи. Включите инструменты в Settings → Agents:

  • Веб-обзор — Извлекает и читает веб-страницы

  • Поиск в Google — Выполняет поиск в Google (требует API-ключ)

  • Интерпретатор кода — Выполняет Python в песочнице

  • GitHub — Читает репозитории

  • SQL-коннектор — Выполняет запросы к базам данных

Тонкая настройка производительности

Обновление AnythingLLM


Устранение неполадок

Контейнер запущен, но UI недоступен

Загрузка документа не удалась

RAG-ответы низкого качества / галлюцинации

Распространённые причины и исправления:

Соединение с Ollama не удаётся из AnythingLLM

Недостаточно памяти / падение контейнера


Дополнительное чтение

Последнее обновление

Это было полезно?