LlamaIndex

Construye pipelines de datos a LLM y aplicaciones RAG con LlamaIndex en GPUs de Clore.ai

LlamaIndex (anteriormente GPT Index) es un marco de datos para aplicaciones con LLM con más de 37.000 estrellas en GitHub. Mientras que LangChain se centra en encadenar llamadas a LLM, LlamaIndex sobresale en ingestión de datos, indexación y consultas estructuradas — lo que lo convierte en la opción ideal cuando tu aplicación necesita razonar sobre colecciones de documentos grandes y heterogéneas.

LlamaIndex ofrece soporte de primera clase para estructuras de datos complejas (bases de datos, APIs, PDFs, páginas de Notion, repositorios de GitHub) y estrategias sofisticadas de recuperación. Ejecutarlo en servidores GPU de Clore.ai con LLMs locales elimina costos de API y mantiene tus datos privados.

Fortalezas clave:

  • 📊 Conectores de datos — más de 160 integraciones (PDF, SQL, Notion, Slack, GitHub, etc.)

  • 🗂️ Múltiples tipos de índice — vectorial, árbol, lista, palabras clave, grafo de conocimiento

  • 🔍 Recuperación avanzada — descomposición en subpreguntas, recuperación recursiva, búsqueda híbrida

  • 🤖 Motores de consulta — SQL, estructurado y lenguaje natural sobre cualquier fuente de datos

  • 🧩 Multimodal — imágenes, audio y video junto con texto

  • 💾 Persistencia — soporte integrado para ChromaDB, Pinecone, Weaviate, etc.

  • Primero asincrónico — diseñado para rendimiento en producción

  • 🔗 Compatible con LangChain — usa ambos marcos juntos

circle-check

Requisitos del servidor

Parámetro
Mínimo
Recomendado

GPU

NVIDIA RTX 3080 (10 GB)

NVIDIA RTX 4090 (24 GB)

VRAM

8 GB (modelo 7B)

24 GB (modelos 13B–34B)

RAM

16 GB

32–64 GB

CPU

4 núcleos

16 núcleos

Disco

30 GB

Más de 100 GB (modelos locales + datos)

SO

Ubuntu 20.04+

Ubuntu 22.04

CUDA

11.8+

12.1+

Python

3.9+

3.11

Puertos

22, 8000

22, 8000, 11434 (Ollama)

circle-info

LlamaIndex es una biblioteca de Python — los recursos GPU son consumidos por el LLM subyacente y el modelo de embeddings. Para despliegues en producción, combina LlamaIndex con Ollama (para inferencia local) y ChromaDB (para almacenamiento vectorial), ambos ejecutándose en tu servidor GPU de Clore.ai.


Despliegue rápido en CLORE.AI

1. Encuentra un servidor adecuado

Ve a CLORE.AI Marketplacearrow-up-right y elige en función del tamaño de tu LLM:

Caso de uso
GPU
Notas

Desarrollo / Pruebas

RTX 3080 (10 GB)

Modelos 7B, conjuntos pequeños de documentos

Producción (pequeña)

RTX 4090 (24 GB)

Modelos 13B, conjuntos de datos medianos

Producción (grande)

A100 40G / 80G

Modelos 34B–70B, conjuntos de datos grandes

Empresa

H100 (80 GB)

Máximo rendimiento

2. Configura tu despliegue

Imagen Docker (base):

Mapeos de puertos:

Script de inicio:

3. Accede a la API


Configuración paso a paso

Paso 1: Conéctate por SSH a tu servidor

Paso 2: Instala Ollama

Paso 3: Configura el entorno Python

Paso 4: Instala los paquetes de LlamaIndex

Paso 5: Configura ajustes globales

Paso 6: Construye tu primer índice

Paso 7: Consulta el índice


Ejemplos de uso

Ejemplo 1: Preguntas y respuestas básicas sobre documentos


Ejemplo 2: RAG de múltiples documentos con ChromaDB


Ejemplo 3: Descomposición en subpreguntas


Ejemplo 4: Índice de grafo de conocimiento


Ejemplo 5: Motor de consulta SQL sobre base de datos


Configuración

Docker Compose (Stack completo de LlamaIndex)

Variables clave de configuración

Ajuste
Por defecto
Descripción

Settings.llm

OpenAI GPT-3.5

LLM para generación

Settings.embed_model

OpenAI Ada

Modelo de embeddings

Settings.chunk_size

1024

Tamaño del fragmento de texto en tokens

Settings.chunk_overlap

200

Superposición entre fragmentos

Settings.num_output

256

Máx. tokens en la respuesta del LLM

Settings.context_window

4096

Tamaño de la ventana de contexto del LLM


Consejos de rendimiento

1. Consultas asíncronas para rendimiento

2. Búsqueda híbrida (palabra clave + semántica)

3. Reordenamiento para calidad

4. Streaming para UIs responsivas


Solución de problemas

Problema: el modelo de embeddings no se conecta a Ollama

Problema: la construcción del índice es lenta

Problema: ModuleNotFoundError para integraciones

Problema: Ventana de contexto excedida

Problema: Las consultas devuelven resultados irrelevantes


Enlaces


Recomendaciones de GPU en Clore.ai

Caso de uso
GPU recomendada
Coste estimado en Clore.ai

Desarrollo/Pruebas

RTX 3090 (24GB)

~$0.12/gpu/hr

RAG en producción

RTX 3090 (24GB)

~$0.12/gpu/hr

Embeddings de alto rendimiento

RTX 4090 (24GB)

~$0.70/gpu/hr

💡 Todos los ejemplos en esta guía pueden desplegarse en Clore.aiarrow-up-right servidores GPU. Navega las GPUs disponibles y alquila por hora — sin compromisos, acceso root completo.

Última actualización

¿Te fue útil?