Plateforme RAG AnythingLLM

Déployez AnythingLLM sur Clore.ai — une application RAG tout-en-un et plateforme d'agents IA avec chat documentaire intégré, constructeur d'agents no-code et support MCP fonctionnant sur des serveurs cloud GPU économiques.

Aperçu

AnythingLLMarrow-up-right est un espace de travail IA complet et open-source avec plus de 40K étoiles sur GitHub. Il combine la RAG (génération augmentée par récupération) basée sur des documents, des agents IA et un constructeur d'agents sans code en une seule application auto-hébergée — le tout géré via une interface propre et intuitive qui ne nécessite aucune compétence en codage pour être configurée.

Pourquoi exécuter AnythingLLM sur Clore.ai ?

  • Pipeline RAG complet prêt à l'emploi — Téléversez des PDF, des documents Word, des sites web et des transcriptions YouTube. AnythingLLM segmente automatiquement, crée des embeddings et les stocke pour la recherche sémantique.

  • Aucun GPU requis pour l'application — AnythingLLM utilise par défaut des embeddings basés sur le CPU. Associez-le à un serveur GPU Clore.ai exécutant Ollama ou vLLM pour l'inférence locale.

  • Agents IA avec de vrais outils — Les agents intégrés peuvent naviguer sur le web, écrire et exécuter du code, gérer des fichiers et appeler des API externes — le tout orchestré via une interface graphique.

  • Compatibilité MCP — S'intègre à l'écosystème Model Context Protocol pour une connectivité d'outils étendue.

  • Isolation des espaces de travail — Créez des espaces de travail distincts avec des bases de connaissances et des paramètres de LLM différents pour différents projets ou équipes.

Vue d'ensemble de l'architecture

┌─────────────────────────────────────────────┐
│            AnythingLLM (Port 3001)          │
│                                             │
│  ┌──────────┐  ┌──────────┐  ┌──────────┐  │
│  │ RAG/Docs │  │  Agents  │  │  Users   │  │
│  └────┬─────┘  └────┬─────┘  └──────────┘  │
│       │             │                       │
│  ┌────▼─────────────▼───────┐               │
│  │    LLM Provider Router   │               │
│  └──────────────┬───────────┘               │
└─────────────────┼───────────────────────────┘

     ┌────────────┼────────────┐
     ▼            ▼            ▼
  OpenAI       Anthropic    Ollama (local)
  Claude        Gemini      vLLM (local)

Exigences

Spécifications du serveur

Composant
Minimum
Recommandé
Remarques

GPU

Aucun requis

RTX 3090 (si vous utilisez des LLM locaux)

Pour backend Ollama/vLLM uniquement

VRAM

24 Go

Pour l’inférence de modèles locaux

CPU

2 vCPU

4 vCPU

Les embeddings s'exécutent sur le CPU

RAM

4 Go

8 Go

Plus = index de documents plus grand en mémoire

Stockage

10 Go

50+ Go

Stockage de documents, base de données de vecteurs, cache de modèles

Référence de tarification Clore.ai

Type de serveur
Coût approximatif
Cas d'utilisation

Instance CPU (4 vCPU, 8 Go de RAM)

~0,05–0,10 $/h

AnythingLLM + fournisseurs d'API externes

RTX 3090 (24 Go VRAM)

~0,20 $/h

AnythingLLM + LLMs locaux Ollama

RTX 4090 (24 Go VRAM)

~0,35 $/h

AnythingLLM + inférence locale plus rapide

A100 80 Go

~1,10 $/h

AnythingLLM + grands modèles 70B+

💡 Astuce pro : L'embedding intégré d'AnythingLLM (LanceDB + embedder CPU local) fonctionne sans GPU. Pour le backend LLM, vous pouvez utiliser des fournisseurs d'API avec offre gratuite comme OpenRouter ou Groq pour limiter les coûts.

Prérequis

  • Serveur Clore.ai avec accès SSH

  • Docker (préinstallé sur les serveurs Clore.ai)

  • Au moins une clé API LLM ou backend local Ollama/vLLM


Démarrage rapide

Méthode 1 : Conteneur Docker unique (Recommandé)

Le déploiement officiel en conteneur unique inclut tout : l'interface web, le store de vecteurs LanceDB et le processeur de documents.

Étape 1 : Connectez-vous à votre serveur Clore.ai

Étape 2 : Configurer le répertoire de stockage

Étape 3 : Exécuter AnythingLLM

Pourquoi --cap-add SYS_ADMIN? AnythingLLM utilise Chromium pour le scraping de pages web et le rendu de PDF, ce qui nécessite des capacités supplémentaires pour le conteneur.

Étape 4 : Vérifier le démarrage

Étape 5 : Compléter l'assistant de configuration

Ouvrez dans le navigateur :

L'assistant de configuration initial vous guide à travers :

  1. Créer un compte administrateur

  2. Choisir un fournisseur LLM

  3. Choisir un modèle d'embedding

  4. Configurer votre premier espace de travail


Méthode 2 : Docker Compose (Multi-service)

Pour des déploiements en production avec des services séparés et une gestion facilitée :

Étape 1 : Créer le répertoire du projet

Étape 2 : Créer docker-compose.yml

Étape 3 : Créer .env fichier

Étape 4 : Démarrer


Méthode 3 : Avec variables d'environnement préconfigurées

Pour un déploiement automatisé sans l'assistant de configuration :


Configuration

Options de fournisseur LLM

AnythingLLM prend en charge une large gamme de backends LLM. À définir dans l'UI sous Paramètres → Préférence LLM, ou via des variables d'environnement :

OpenAI :

Anthropic Claude :

Google Gemini :

Ollama (local) :

OpenRouter (accès à 100+ modèles) :

Configuration des embeddings

Moteur
Backend
GPU requis
Qualité

native

CPU (intégré)

Non

Bon

openai

API OpenAI

Non

Excellent

ollama

Ollama local

Optionnel

Bon-Excellent

localai

LocalAI

Optionnel

Variable

Options de base de données de vecteurs

BD
Description
Idéal pour

lancedb

Intégré, sans configuration

Par défaut, jeux de données petits à moyens

chroma

ChromaDB (externe)

Jeux de données moyens, flexibilité

pinecone

Pinecone cloud

Jeux de données volumineux, production

weaviate

Weaviate (auto-hébergé)

Cas d'utilisation avancés

Configuration de l'espace de travail

Les espaces de travail AnythingLLM sont des environnements isolés avec leur propre :

  • Base de connaissances de documents

  • Paramètres LLM (peuvent remplacer le global)

  • Historique de chat

  • Configurations d'agents

Créer des espaces de travail via l'UI ou l'API :

Ingestion de documents

Téléversez des documents via l'UI ou l'API :


Accélération GPU

AnythingLLM lui-même fonctionne sur CPU. L'accélération GPU s'applique au backend d'inférence LLM.

Exécuter Ollama sur le même serveur Clore.ai

Performance des modèles GPU sur Clore.ai

Modèle
GPU
VRAM
Vitesse d'embedding
Vitesse d'inférence
Coût / h

Llama 3.2 3B

RTX 3090

2 Go

Rapide

60–80 tok/s

~$0.20

Llama 3.1 8B

RTX 3090

6 Go

Rapide

40–60 tok/s

~$0.20

Mistral 7B

RTX 3090

5 Go

Rapide

45–65 tok/s

~$0.20

Llama 3.1 70B

A100 80GB

40 Go

Moyen

20–35 tok/s

~$1.10


Conseils et bonnes pratiques

Bonnes pratiques pour l'ingestion de documents

  • Pré-traitez les gros PDFs — Les scans lourds en OCR ralentissent l'ingestion. Utilisez pdftotext ou Adobe OCR au préalable.

  • Organisez par espace de travail — Créez des espaces de travail séparés par projet/domaine pour une meilleure précision de récupération.

  • Utilisez des requêtes spécifiques — La RAG fonctionne mieux avec des questions spécifiques, pas des demandes larges.

Gestion des coûts sur Clore.ai

Comme les instances Clore.ai sont éphémères, sauvegardez toujours le répertoire de stockage. Il contient :

  • Embeddings vectoriels (LanceDB)

  • Documents téléversés

  • Historique de chat

  • Configurations d'agents

Configuration multi-utilisateurs

Configuration des agents IA

Les agents AnythingLLM peuvent accomplir des tâches réelles. Activez les outils dans Paramètres → Agents:

  • Navigation Web — Récupère et lit des pages web

  • Recherche Google — Recherche sur Google (nécessite une clé API)

  • Interpréteur de code — Exécute du Python dans un sandbox

  • GitHub — Lit des dépôts

  • Connecteur SQL — Interroge des bases de données

Optimisation des performances

Mise à jour d'AnythingLLM


Dépannage

Le conteneur démarre mais l'UI n'est pas accessible

Échec du téléversement de document

Les réponses RAG sont de mauvaise qualité / hallucinent

Causes courantes et solutions :

La connexion Ollama échoue depuis AnythingLLM

Manque de mémoire / crash du conteneur


Lectures complémentaires

Mis à jour

Ce contenu vous a-t-il été utile ?