LlamaIndex

Construire des pipelines LlamaIndex data-to-LLM et des applications RAG sur les GPU Clore.ai

LlamaIndex (anciennement GPT Index) est un cadre de données pour les applications LLM avec plus de 37 000 étoiles GitHub. Alors que LangChain se concentre sur l'enchaînement des appels LLM, LlamaIndex excelle dans l'ingestion de données, l'indexation et les requêtes structurées — faisant de lui le choix de référence lorsque votre application doit raisonner sur de grandes collections de documents hétérogènes.

LlamaIndex offre un support de premier ordre pour les structures de données complexes (bases de données, API, PDF, pages Notion, dépôts GitHub) et des stratégies de récupération sophistiquées. L'exécuter sur des serveurs GPU Clore.ai avec des LLM locaux élimine les coûts d'API et préserve la confidentialité de vos données.

Points forts :

  • 📊 Connecteurs de données — plus de 160 intégrations (PDF, SQL, Notion, Slack, GitHub, etc.)

  • 🗂️ Plusieurs types d'index — vecteur, arbre, liste, mot-clé, graphe de connaissances

  • 🔍 Récupération avancée — décomposition en sous-questions, récupération récursive, recherche hybride

  • 🤖 Moteurs de requête — SQL, structuré et langage naturel sur n'importe quelle source de données

  • 🧩 Multi-modal — images, audio et vidéo en plus du texte

  • 💾 Persistance — prise en charge intégrée pour ChromaDB, Pinecone, Weaviate, etc.

  • Conçu pour l'asynchrone — conçu pour le débit en production

  • 🔗 Compatible LangChain — utilisez les deux cadres ensemble

circle-check

Exigences serveur

Paramètre
Minimum
Recommandé

GPU

NVIDIA RTX 3080 (10 Go)

NVIDIA RTX 4090 (24 Go)

VRAM

8 Go (modèle 7B)

24 Go (modèles 13B–34B)

RAM

16 Go

32–64 Go

CPU

4 cœurs

16 cœurs

Disque

30 Go

100+ Go (modèles locaux + données)

OS

Ubuntu 20.04+

Ubuntu 22.04

CUDA

11.8+

12.1+

Python

3.9+

3.11

Ports

22, 8000

22, 8000, 11434 (Ollama)

circle-info

LlamaIndex est une bibliothèque Python — les ressources GPU sont consommées par le LLM sous-jacent et le modèle d'embeddings. Pour les déploiements en production, associez LlamaIndex à Ollama (pour l'inférence locale) et ChromaDB (pour le stockage vectoriel), tous deux exécutés sur votre serveur GPU Clore.ai.


Déploiement rapide sur CLORE.AI

1. Trouvez un serveur adapté

Aller à CLORE.AI Marketplacearrow-up-right et choisissez en fonction de la taille de votre LLM :

Cas d’utilisation
GPU
Remarques

Développement / Tests

RTX 3080 (10 Go)

modèles 7B, petits ensembles de documents

Production (petite)

RTX 4090 (24 Go)

modèles 13B, ensembles de données moyens

Production (grande)

A100 40G / 80G

modèles 34B–70B, grands ensembles de données

Entreprise

H100 (80 Go)

Débit maximal

2. Configurez votre déploiement

Image Docker (de base) :

Mappages de ports :

Script de démarrage :

3. Accédez à l'API


Configuration étape par étape

Étape 1 : connectez-vous en SSH sur votre serveur

Étape 2 : installez Ollama

Étape 3 : configurez l'environnement Python

Étape 4 : installez les paquets LlamaIndex

Étape 5 : configurez les paramètres globaux

Étape 6 : construisez votre premier index

Étape 7 : interrogez l'index


Exemples d’utilisation

Exemple 1 : Q&R basique sur documents


Exemple 2 : RAG multi-documents avec ChromaDB


Exemple 3 : Décomposition en sous-questions


Exemple 4 : Index de graphe de connaissances


Exemple 5 : Moteur de requête SQL sur base de données


Configuration

Docker Compose (Pile complète LlamaIndex)

Variables de configuration clés

Paramètre
Par défaut
Description

Settings.llm

OpenAI GPT-3.5

LLM pour la génération

Settings.embed_model

OpenAI Ada

Modèle d'embeddings

Settings.chunk_size

1024

Taille des chunks de texte en tokens

Settings.chunk_overlap

200

Chevauchement entre les chunks

Settings.num_output

256

Nombre max de tokens dans la réponse du LLM

Settings.context_window

4096

Taille de la fenêtre de contexte du LLM


Conseils de performance

1. Requêtes asynchrones pour le débit

2. Recherche hybride (mot-clé + sémantique)

3. Re-ranking pour la qualité

4. Streaming pour des UIs réactives


Dépannage

Problème : le modèle d'embeddings ne se connecte pas à Ollama

Problème : la construction de l'index est lente

Problème : ModuleNotFoundError pour integrations

Problème : Fenêtre de contexte dépassée

Problème : Les requêtes renvoient des résultats non pertinents


Liens


Recommandations GPU Clore.ai

Cas d’utilisation
GPU recommandé
Coût estimé sur Clore.ai

Développement/Test

RTX 3090 (24GB)

~$0.12/gpu/hr

RAG en production

RTX 3090 (24GB)

~$0.12/gpu/hr

Embeddings à haut débit

RTX 4090 (24GB)

~$0.70/gpu/hr

💡 Tous les exemples de ce guide peuvent être déployés sur Clore.aiarrow-up-right serveurs GPU. Parcourez les GPU disponibles et louez à l’heure — sans engagement, avec accès root complet.

Mis à jour

Ce contenu vous a-t-il été utile ?