Plataforma RAG AnythingLLM

Despliega AnythingLLM en Clore.ai: aplicación RAG todo-en-uno y plataforma de agentes AI con chat de documentos integrado, constructor de agentes sin código y soporte MCP en servidores cloud GPU rentables.

Resumen

AnythingLLMarrow-up-right es un espacio de trabajo de IA completo y de código abierto con más de 40K estrellas en GitHub. Combina RAG basado en documentos (Generación Aumentada por Recuperación), agentes de IA y un creador de agentes sin código en una sola aplicación autoalojada — todo gestionado a través de una interfaz limpia e intuitiva que no requiere programación para configurarse.

¿Por qué ejecutar AnythingLLM en Clore.ai?

  • Pipeline RAG completo listo para usar — Sube archivos PDF, documentos Word, sitios web y transcripciones de YouTube. AnythingLLM automáticamente los divide en fragmentos, crea embeddings y los almacena para búsqueda semántica.

  • No se requiere GPU para la aplicación — AnythingLLM utiliza embeddings basados en CPU por defecto. Combínalo con un servidor GPU de Clore.ai que ejecute Ollama o vLLM para inferencia local.

  • Agentes de IA con herramientas reales — Los agentes integrados pueden navegar por la web, escribir y ejecutar código, gestionar archivos y llamar a APIs externas — todo orquestado mediante una GUI.

  • Compatibilidad con MCP — Se integra con el ecosistema del Model Context Protocol para conectividad extendida de herramientas.

  • Aislamiento de espacios de trabajo — Crea espacios de trabajo separados con diferentes bases de conocimiento y configuraciones de LLM para distintos proyectos o equipos.

Descripción general de la arquitectura

┌─────────────────────────────────────────────┐
│            AnythingLLM (Puerto 3001)         │
│                                             │
│  ┌──────────┐  ┌──────────┐  ┌──────────┐  │
│  │ RAG/Docs │  │  Agents  │  │  Users   │  │
│  └────┬─────┘  └────┬─────┘  └──────────┘  │
│       │             │                       │
│  ┌────▼─────────────▼───────┐               │
│  │    LLM Provider Router   │               │
│  └──────────────┬───────────┘               │
└─────────────────┼───────────────────────────┘

     ┌────────────┼────────────┐
     ▼            ▼            ▼
  OpenAI       Anthropic    Ollama (local)
  Claude        Gemini      vLLM (local)

Requisitos

Especificaciones del servidor

Componente
Mínimo
Recomendado
Notas

GPU

Ninguna requerida

RTX 3090 (si se usan LLMs locales)

Solo para backend Ollama/vLLM

VRAM

24 GB

Para inferencia de modelos locales

CPU

2 vCPU

4 vCPU

El embedding se ejecuta en CPU

RAM

4 GB

8 GB

Más = índice de documentos más grande en memoria

Almacenamiento

10 GB

50+ GB

Almacenamiento de documentos, DB vectorial, caché de modelos

Referencia de precios de Clore.ai

Tipo de servidor
Costo aprox.
Caso de uso

Instancia CPU (4 vCPU, 8 GB RAM)

~$0.05–0.10/h

AnythingLLM + proveedores de API externos

RTX 3090 (24 GB VRAM)

~$0.20/h

AnythingLLM + LLMs locales Ollama

RTX 4090 (24 GB VRAM)

~$0.35/h

AnythingLLM + inferencia local más rápida

A100 80 GB

~$1.10/h

AnythingLLM + modelos grandes de 70B+

💡 Consejo profesional: El embedding integrado de AnythingLLM (LanceDB + embedder local en CPU) funciona sin GPU. Para el backend LLM, puedes usar proveedores de API con nivel gratuito como OpenRouter o Groq para mantener los costos mínimos.

Prerrequisitos

  • Servidor Clore.ai con acceso SSH

  • Docker (preinstalado en los servidores de Clore.ai)

  • Al menos una clave API de LLM o backend local Ollama/vLLM


Inicio rápido

Método 1: Contenedor Docker único (Recomendado)

El despliegue oficial en un solo contenedor incluye todo: la interfaz web, la tienda vectorial LanceDB y el procesador de documentos.

Paso 1: Conéctate a tu servidor Clore.ai

Paso 2: Configurar el directorio de almacenamiento

Paso 3: Ejecutar AnythingLLM

Por qué --cap-add SYS_ADMIN? AnythingLLM usa Chromium para scraping de páginas web y renderizado de PDF, lo que requiere capacidades elevadas en el contenedor.

Paso 4: Verificar el inicio

Paso 5: Completar el asistente de configuración

Abre en el navegador:

El asistente de configuración inicial te guía a través de:

  1. Crear cuenta de administrador

  2. Elegir proveedor de LLM

  3. Elegir modelo de embedding

  4. Configurar tu primer espacio de trabajo


Método 2: Docker Compose (Multi-Servicio)

Para despliegues de producción con servicios separados y gestión más sencilla:

Paso 1: Crear directorio del proyecto

Paso 2: Crear docker-compose.yml

Paso 3: Crear .env archivo

Paso 4: Iniciar


Método 3: Con variables de entorno preconfiguradas

Para despliegue automatizado sin el asistente de configuración:


Configuración

Opciones de proveedor de LLM

AnythingLLM admite una amplia gama de backends LLM. Configúralo en la UI bajo Settings → LLM Preference, o vía variables de entorno:

OpenAI:

Anthropic Claude:

Google Gemini:

Ollama (local):

OpenRouter (acceso a 100+ modelos):

Configuración de Embeddings

Motor
Backend
Necesita GPU
Calidad

native

CPU (integrado)

No

Bueno

openai

API de OpenAI

No

Excelente

ollama

Ollama local

Opcional

Bueno-Excelente

localai

LocalAI

Opcional

Variable

Opciones de bases de datos vectoriales

DB
Descripción
Mejor para

lancedb

Integrado, sin configuración

Por defecto, conjuntos de datos pequeños-medianos

chroma

ChromaDB (externa)

Conjuntos de datos medianos, flexibilidad

pinecone

Pinecone en la nube

Conjuntos de datos grandes, producción

weaviate

Weaviate (autoalojado)

Casos de uso avanzados

Configuración del espacio de trabajo

Los espacios de trabajo de AnythingLLM son entornos aislados con su propio:

  • Base de conocimiento de documentos

  • Configuraciones de LLM (pueden anular lo global)

  • Historial de chat

  • Configuraciones de agentes

Crea espacios de trabajo vía la UI o la API:

Ingestión de documentos

Sube documentos mediante la UI o la API:


Aceleración por GPU

AnythingLLM en sí se ejecuta en CPU. La aceleración por GPU se aplica al backend de inferencia LLM.

Ejecutando Ollama en el mismo servidor Clore.ai

Rendimiento de modelos GPU en Clore.ai

Modelo
GPU
VRAM
Velocidad de embeddings
Velocidad de inferencia
Costo/hr

Llama 3.2 3B

RTX 3090

2 GB

Rápido

60–80 tok/s

~$0.20

Llama 3.1 8B

RTX 3090

6 GB

Rápido

40–60 tok/s

~$0.20

Mistral 7B

RTX 3090

5 GB

Rápido

45–65 tok/s

~$0.20

Llama 3.1 70B

A100 80GB

40 GB

Medio

20–35 tok/s

~$1.10


Consejos y mejores prácticas

Mejores prácticas para ingestión de documentos

  • Preprocesar PDFs grandes — Las digitalizaciones con mucho OCR ralentizan la ingestión. Usa pdftotext o Adobe OCR de antemano.

  • Organizar por espacio de trabajo — Crea espacios de trabajo separados por proyecto/dominio para una mejor precisión de recuperación.

  • Usar consultas específicas — RAG funciona mejor con preguntas específicas, no con solicitudes amplias.

Gestión de costos en Clore.ai

Dado que las instancias Clore.ai son efímeras, siempre haz copia de seguridad del directorio de almacenamiento. Contiene:

  • Embeddings vectoriales (LanceDB)

  • Documentos subidos

  • Historial de chat

  • Configuraciones de agentes

Configuración multiusuario

Configuración de agentes de IA

Los agentes de AnythingLLM pueden realizar tareas del mundo real. Habilita herramientas en Settings → Agents:

  • Navegación web — Recupera y lee páginas web

  • Búsqueda en Google — Realiza búsquedas en Google (requiere clave API)

  • Intérprete de código — Ejecuta Python en sandbox

  • GitHub — Lee repositorios

  • Conector SQL — Consulta bases de datos

Ajuste de rendimiento

Actualizar AnythingLLM


Solución de problemas

El contenedor inicia pero la UI no es accesible

La subida de documentos falla

Las respuestas RAG son de mala calidad / con alucinaciones

Causas comunes y soluciones:

La conexión a Ollama falla desde AnythingLLM

Falta de memoria / fallo del contenedor


Lecturas adicionales

Última actualización

¿Te fue útil?