Qdrant

Base de datos vectorial de alto rendimiento para búsqueda semántica y aplicaciones RAG: indexación acelerada por GPU

Qdrant es una base de datos vectorial de código abierto y lista para producción escrita en Rust. Ofrece búsqueda aproximada de vecinos más cercanos (ANN) rápida en miles de millones de vectores con filtrado avanzado, indexación de payload y soporte multivector. Es la columna vertebral de muchos pipelines RAG (Generación Aumentada por Recuperación) y aplicaciones de búsqueda semántica en producción.

GitHub: qdrant/qdrantarrow-up-right — 22K+ ⭐


¿Por qué Qdrant?

Característica
Qdrant
Pinecone
Weaviate
Chroma

Código abierto

Rendimiento de Rust

❌ Go

❌ Python

Filtrado en tiempo de consulta

✅ Avanzado

✅ Básico

✅ Básico

Multivector

HNSW en disco

Indexación de payload

Limitado

Limitado

gRPC + REST

✅ Ambos

✅ REST

REST

Autoalojado

❌ Solo en la nube

circle-check

Casos de uso clave

  • RAG (Generación Aumentada por Recuperación) — encontrar contexto relevante para prompts de LLM

  • Búsqueda semántica — buscar por significado, no solo por palabras clave

  • Sistemas de recomendación — encontrar ítems similares por similitud de embeddings

  • Detección de duplicados — identificar contenido casi duplicado

  • Detección de anomalías — encontrar vectores alejados de los centros de los clústeres

  • Búsqueda de similitud de imagen/audio — recuperación multimodal


Prerrequisitos

  • Cuenta en Clore.ai con alquiler de GPU

  • Familiaridad básica con APIs REST o Python

  • Su modelo de embeddings preferido (OpenAI, SentenceTransformers, etc.)


Paso 1 — Alquilar un servidor en Clore.ai

Qdrant está principalmente limitado por CPU/RAM para el servicio, pero se beneficia de GPU cuando:

  • Se generan embeddings junto con el servicio (modelo de embeddings en el mismo servidor)

  • Operaciones de indexación por lotes a gran escala

  1. Ve a clore.aiarrow-up-rightMarketplace

  2. Para combinación de embeddings + servicio: RTX 3090/4090 con 32GB+ de RAM

  3. Para solo servicio: Servidor optimizado para CPU con almacenamiento NVMe rápido

circle-info

Planificación de memoria:

  • Cada vector float32 con 1536 dimensiones = 6KB

  • 1 millón de vectores = ~6GB de RAM

  • 10 millones de vectores = ~60GB de RAM

  • Habilite almacenamiento en disco para colecciones muy grandes


Paso 2 — Desplegar el contenedor Qdrant

Imagen Docker:

Puertos:

  • Puerto 6333: API REST (HTTP)

  • Puerto 6334: API gRPC (mayor rendimiento para operaciones en lote)

Variables de entorno:

Volumen/Almacenamiento persistente: Montar /qdrant/storage para la persistencia de datos. Sin esto, los datos se pierden al reiniciar el contenedor.


Paso 3 — Verificar que Qdrant está en ejecución


Paso 4 — Instalar el cliente de Python


Paso 5 — Crear una colección

Una colección es un grupo nombrado de vectores con una dimensionalidad fija.

Colección para SentenceTransformers (384 dims)


Paso 6 — Indexar documentos

Con OpenAI Embeddings

Con SentenceTransformers (Local, acelerado por GPU)


Paso 7 — Buscar y consultar

Búsqueda semántica básica

Búsqueda filtrada (Metadatos + Vector)

Búsqueda por lotes/múltiples consultas


Paso 8 — Construir un pipeline RAG


Paso 9 — Monitorizar y gestionar colecciones


Solución de problemas

Conexión rechazada

Rendimiento de búsqueda lento

Alto uso de memoria


Referencia rápida de la API REST


Estimación de costos en Clore.ai

Configuración
Servidor
Coste mensual
Capacidad

RAG pequeño

RTX 3090, 32GB RAM

~$60–80

~5M vectores

Búsqueda mediana

RTX 4090, 64GB RAM

~$120–150

~15M vectores

Gran escala

A100, 128GB RAM

~$250–350

~30M vectores


Recursos adicionales


Qdrant en Clore.ai te ofrece una base de datos vectorial autoalojada y de alto rendimiento sin los costes por consulta de Pinecone o Weaviate Cloud. Perfecto para pipelines RAG que procesan millones de documentos.


Recomendaciones de GPU en Clore.ai

Caso de uso
GPU recomendada
Coste estimado en Clore.ai

Desarrollo/Pruebas

RTX 3090 (24GB)

~$0.12/gpu/hr

Búsqueda vectorial en producción

RTX 3090 (24GB)

~$0.12/gpu/hr

Embeddings de alto rendimiento

RTX 4090 (24GB)

~$0.70/gpu/hr

💡 Todos los ejemplos en esta guía pueden desplegarse en Clore.aiarrow-up-right servidores GPU. Navega las GPUs disponibles y alquila por hora — sin compromisos, acceso root completo.

Última actualización

¿Te fue útil?