AnythingLLM RAG-Plattform

Setzen Sie AnythingLLM auf Clore.ai ein — eine All-in-One RAG-Anwendung und KI-Agentenplattform mit integriertem Dokument-Chat, No-Code-Agenten-Builder und MCP-Unterstützung, die auf kosteneffizienten GPU-Cloud-Servern läuft.

Überblick

AnythingLLMarrow-up-right ist ein voll ausgestatteter Open-Source-AI-Arbeitsbereich mit über 40.000 GitHub-Sternen. Er kombiniert dokumentenbasierte RAG (Retrieval-Augmented Generation), KI-Agenten und einen No-Code-Agenten-Baukasten in einer einzigen, selbst gehosteten Anwendung – alles verwaltet über eine saubere, intuitive Benutzeroberfläche, die keine Programmierkenntnisse zur Einrichtung erfordert.

Warum AnythingLLM auf Clore.ai betreiben?

  • Vollständige RAG-Pipeline sofort einsatzbereit — Laden Sie PDFs, Word-Dokumente, Websites und YouTube-Transkripte hoch. AnythingLLM zerlegt, erstellt Einbettungen und speichert sie automatisch für semantische Suche.

  • Keine GPU für die Anwendung erforderlich — AnythingLLM verwendet standardmäßig CPU-basierte Einbettungen. Kombinieren Sie es mit einem Clore.ai-GPU-Server, der Ollama oder vLLM für lokale Inferenz ausführt.

  • KI-Agenten mit echten Tools — Eingebaute Agenten können das Web durchsuchen, Code schreiben und ausführen, Dateien verwalten und externe APIs aufrufen – alles über eine GUI orchestriert.

  • MCP-Kompatibilität — Integriert sich in das Model Context Protocol-Ökosystem für erweiterte Tool-Konnektivität.

  • Workspace-Isolierung — Erstellen Sie separate Workspaces mit unterschiedlichen Wissensdatenbanken und LLM-Einstellungen für verschiedene Projekte oder Teams.

Architekturübersicht

┌─────────────────────────────────────────────┐
│            AnythingLLM (Port 3001)          │
│                                             │
│  ┌──────────┐  ┌──────────┐  ┌──────────┐  │
│  │ RAG/Docs │  │  Agents  │  │  Users   │  │
│  └────┬─────┘  └────┬─────┘  └──────────┘  │
│       │             │                       │
│  ┌────▼─────────────▼───────┐               │
│  │    LLM Provider Router   │               │
│  └──────────────┬───────────┘               │
└─────────────────┼───────────────────────────┘

     ┌────────────┼────────────┐
     ▼            ▼            ▼
  OpenAI       Anthropic    Ollama (lokal)
  Claude        Gemini      vLLM (lokal)

Anforderungen

Server-Spezifikationen

Komponente
Minimum
Empfohlen
Hinweise

GPU

Keine erforderlich

RTX 3090 (falls lokale LLMs verwendet werden)

Nur für Ollama/vLLM-Backend

VRAM

24 GB

Für lokale Modellausführung

CPU

2 vCPU

4 vCPU

Einbettungen laufen auf der CPU

RAM

4 GB

8 GB

Mehr = größeres Dokumenten-Index im Speicher

Speicher

10 GB

50+ GB

Dokumentenspeicherung, Vektor-DB, Modell-Cache

Clore.ai Preisinformationen

Servertyp
Ungefähre Kosten
Einsatzgebiet

CPU-Instanz (4 vCPU, 8 GB RAM)

~0,05–0,10 $/Std.

AnythingLLM + externe API-Anbieter

RTX 3090 (24 GB VRAM)

~$0.20/Stunde

AnythingLLM + Ollama lokale LLMs

RTX 4090 (24 GB VRAM)

~$0.35/Stunde

AnythingLLM + schnellere lokale Inferenz

A100 80 GB

~$1.10/Stunde

AnythingLLM + große Modelle ab 70B+

💡 Pro-Tipp: Die eingebaute Einbettung von AnythingLLM (LanceDB + lokaler CPU-Embedder) funktioniert ohne GPU. Für das LLM-Backend können Sie kostenlose API-Anbieter wie OpenRouter oder Groq nutzen, um die Kosten gering zu halten.

Voraussetzungen

  • Clore.ai-Server mit SSH-Zugang

  • Docker (vorinstalliert auf Clore.ai-Servern)

  • Mindestens ein LLM-API-Schlüssel oder lokales Ollama/vLLM-Backend


Schnellstart

Methode 1: Einzelner Docker-Container (empfohlen)

Die offizielle Single-Container-Bereitstellung enthält alles: die Web-UI, LanceDB-Vektorspeicher und den Dokumentenprozessor.

Schritt 1: Verbinden Sie sich mit Ihrem Clore.ai-Server

Schritt 2: Speicherverzeichnis einrichten

Schritt 3: AnythingLLM starten

Warum --cap-add SYS_ADMIN? AnythingLLM verwendet Chromium zum Scrapen von Webseiten und Rendern von PDFs, was erhöhte Container-Berechtigungen erfordert.

Schritt 4: Start überprüfen

Schritt 5: Setup-Assistent abschließen

Im Browser öffnen:

Der erstmalige Setup-Assistent führt Sie durch:

  1. Admin-Konto erstellen

  2. LLM-Anbieter wählen

  3. Einbettungsmodell wählen

  4. Ihren ersten Workspace konfigurieren


Methode 2: Docker Compose (Multi-Service)

Für Produktionsbereitstellungen mit separaten Diensten und leichterer Verwaltung:

Schritt 1: Projektverzeichnis anlegen

Schritt 2: Erstellen Sie docker-compose.yml

Schritt 3: Erstellen .env Datei

Schritt 4: Starten


Methode 3: Mit vorkonfigurierten Umgebungsvariablen

Für automatisierte Bereitstellung ohne Setup-Assistent:


Konfiguration

LLM-Anbieter-Optionen

AnythingLLM unterstützt eine große Auswahl an LLM-Backends. Einstellbar in der UI unter Einstellungen → LLM-Voreinstellungen, oder über Umgebungsvariablen:

OpenAI:

Anthropic Claude:

Google Gemini:

Ollama (lokal):

OpenRouter (Zugriff auf 100+ Modelle):

Einbettungskonfiguration

Engine
Backend
GPU benötigt
Qualität

native

CPU (eingebaut)

Nein

Gut

openai

OpenAI API

Nein

Ausgezeichnet

ollama

Lokales Ollama

Optional

Gut–Ausgezeichnet

localai

LocalAI

Optional

Variable

Optionen für Vektor-Datenbanken

DB
Beschreibung
Am besten geeignet für

lancedb

Eingebaut, keine Konfiguration

Standard, kleine–mittlere Datensätze

chroma

ChromaDB (extern)

Mittlere Datensätze, Flexibilität

pinecone

Pinecone Cloud

Große Datensätze, Produktion

weaviate

Weaviate (selbst gehostet)

Erweiterte Anwendungsfälle

Workspace-Konfiguration

AnythingLLM-Workspaces sind isolierte Umgebungen mit eigenen:

  • Dokumenten-Wissensbasis

  • LLM-Einstellungen (können global überschreiben)

  • Chat-Verlauf

  • Agentenkonfigurationen

Erstellen Sie Workspaces über die UI oder API:

Dokumentaufnahme (Ingestion)

Laden Sie Dokumente über UI oder API hoch:


GPU-Beschleunigung

AnythingLLM selbst läuft auf der CPU. GPU-Beschleunigung gilt für das LLM-Inferenz-Backend.

Ollama auf demselben Clore.ai-Server ausführen

GPU-Modellleistung auf Clore.ai

Modell
GPU
VRAM
Einbettungsgeschwindigkeit
Inferenzgeschwindigkeit
Kosten/Stunde

Llama 3.2 3B

RTX 3090

2 GB

Schnell

60–80 tok/s

~$0.20

Llama 3.1 8B

RTX 3090

6 GB

Schnell

40–60 tok/s

~$0.20

Mistral 7B

RTX 3090

5 GB

Schnell

45–65 tok/s

~$0.20

Llama 3.1 70B

A100 80GB

40 GB

Mittel

20–35 tok/s

~$1.10


Tipps & bewährte Methoden

Best Practices für Dokumentenaufnahme

  • Große PDFs vorverarbeiten — OCR-lastige Scans verlangsamen die Aufnahme. Verwenden Sie pdftotext oder Adobe OCR im Vorfeld.

  • Nach Workspace organisieren — Erstellen Sie für jedes Projekt/Domain separate Workspaces für bessere Abrufgenauigkeit.

  • Spezifische Abfragen verwenden — RAG funktioniert am besten mit spezifischen Fragen, nicht mit allgemeinen Anfragen.

Kostenmanagement auf Clore.ai

Da Clore.ai-Instanzen flüchtig sind, sichern Sie immer das Speicherverzeichnis. Es enthält:

  • Vektor-Einbettungen (LanceDB)

  • Hochgeladene Dokumente

  • Chat-Verlauf

  • Agentenkonfigurationen

Multi-Benutzer-Einrichtung

KI-Agentenkonfiguration

AnythingLLM-Agenten können reale Aufgaben ausführen. Aktivieren Sie Tools in Einstellungen → Agents:

  • Web-Browsen — Ruft Webseiten ab und liest sie

  • Google-Suche — Durchsucht Google (erfordert API-Schlüssel)

  • Code-Interpreter — Führt Python in einer Sandbox aus

  • GitHub — Liest Repositories

  • SQL-Connector — Fragt Datenbanken ab

Leistungsoptimierung

AnythingLLM aktualisieren


Fehlerbehebung

Container startet, aber UI nicht erreichbar

Dokument-Upload schlägt fehl

RAG-Antworten sind von schlechter Qualität / Halluzinieren

Häufige Ursachen und Behebungen:

Ollama-Verbindung von AnythingLLM schlägt fehl

Nicht genügend Speicher / Container-Absturz


Weiterführende Lektüre

Zuletzt aktualisiert

War das hilfreich?