LocalAI

API compatible con OpenAI autohospedada con LocalAI en Clore.ai

Ejecute una API compatible con OpenAI autohospedada con LocalAI.

circle-check

Requisitos del servidor

Parámetro
Mínimo
Recomendado

RAM

8GB

16GB+

VRAM

6GB

8GB+

Red

200Mbps

500Mbps+

Tiempo de inicio

5-10 minutos

-

circle-exclamation
circle-info

LocalAI es ligero. Para ejecutar LLMs (modelos 7B+), elija servidores con 16GB+ de RAM y 8GB+ de VRAM.

¿Qué es LocalAI?

LocalAI proporciona:

  • Reemplazo directo de la API de OpenAI

  • Soporte para múltiples formatos de modelos

  • Generación de texto, imagen, audio y embeddings

  • No se requiere GPU (pero es más rápido con GPU)

Modelos compatibles

Tipo
Formatos
Ejemplos

LLM

GGUF, GGML

Llama, Mistral, Phi

Embeddings

GGUF

all-MiniLM, BGE

Imágenes

Diffusers

SD 1.5, SDXL

Audio

Whisper

De voz a texto

TTS

Piper, Bark

Texto a voz

Despliegue rápido

Imagen Docker:

Puertos:

No se necesita comando - el servidor se inicia automáticamente.

Verificar que funciona

Después del despliegue, encuentra tu http_pub URL en Mis Pedidos y probar:

circle-exclamation

Modelos preinstalados

LocalAI viene con varios modelos disponibles listos para usar:

Nombre del modelo
Tipo
Descripción

gpt-4

Chat

LLM de propósito general

gpt-4o

Chat

LLM de propósito general

gpt-4o-mini

Chat

LLM más pequeño y rápido

whisper-1

STT

De voz a texto

tts-1

TTS

Texto a voz

text-embedding-ada-002

Embeddings

Vectores de 384 dimensiones

jina-reranker-v1-base-en

Reordenamiento

Reordenamiento de documentos

circle-info

Estos modelos funcionan inmediatamente después del arranque sin configuración adicional.

Accediendo a tu servicio

Cuando se despliega en CLORE.AI, acceda a LocalAI a través de la http_pub URL:

circle-info

Todo localhost:8080 los ejemplos a continuación funcionan cuando está conectado vía SSH. Para acceso externo, reemplace con su https://your-http-pub.clorecloud.net/ URL.

Despliegue con Docker (alternativa)

Descargar modelos

Desde la galería de modelos

LocalAI tiene una galería de modelos incorporada:

Desde Hugging Face

Configuración del modelo

Cree un archivo YAML de configuración para cada modelo:

models/llama-3.1-8b.yaml:

Uso de la API

Chat Completions (compatible con OpenAI)

Streaming

Embeddings

Generación de imágenes

Ejemplos con cURL

Chat

Embeddings

Respuesta:

Texto a voz (TTS)

Voces disponibles: alloy, echo, fable, onyx, nova, shimmer

Voz a texto (STT)

Respuesta:

Reordenamiento

Reordenar documentos por relevancia a una consulta:

Respuesta:

Referencia completa de la API

Endpoints estándar (compatibles con OpenAI)

Endpoint
Método
Descripción

/v1/models

GET

Listar modelos disponibles

/v1/chat/completions

POST

Completación de chat

/v1/completions

POST

Completación de texto

/v1/embeddings

POST

Generar embeddings

/v1/audio/speech

POST

Texto a voz

/v1/audio/transcriptions

POST

De voz a texto

/v1/images/generations

POST

Generación de imágenes

Endpoints adicionales

Endpoint
Método
Descripción

/readyz

GET

Comprobación de disponibilidad

/healthz

GET

Comprobación de salud

/version

GET

Obtener la versión de LocalAI

/v1/rerank

POST

Reordenamiento de documentos

/models/available

GET

Listar modelos de la galería

/models/apply

POST

Instalar modelo desde la galería

/swagger/

GET

Documentación Swagger UI

/metrics

GET

Métricas de Prometheus

Obtener versión

Respuesta:

Documentación Swagger

Ábralo en el navegador para documentación interactiva de la API:

Aceleración por GPU

Backend CUDA

Descarga completa a GPU

Múltiples modelos

LocalAI puede servir múltiples modelos simultáneamente:

Acceda a cada uno mediante el nombre del modelo en las llamadas a la API.

Ajuste de rendimiento

Para velocidad

Para memoria

Benchmarks

Modelo
GPU
Tokens/seg

Llama 3.1 8B Q4

RTX 3090

~100

Mistral 7B Q4

RTX 3090

~110

Llama 3.1 8B Q4

RTX 4090

~140

Mixtral 8x7B Q4

A100

~60

Benchmarks actualizados en enero de 2026.

Solución de problemas

HTTP 502 en la URL http_pub

LocalAI tarda más en iniciarse que otros servicios. Espere 5-10 minutos y vuelva a intentar:

El modelo no carga

  • Compruebe la ruta del archivo en el YAML

  • Verifique la compatibilidad del formato GGUF

  • Compruebe la VRAM disponible

Respuestas lentas

  • Aumente gpu_layers

  • Habilite use_mmap

  • Reducir context_size

Memoria insuficiente

  • Reducir gpu_layers

  • Use cuantización más pequeña (Q4 en lugar de Q8)

  • Reducir el tamaño del lote

Problemas con la generación de imágenes

circle-exclamation

Estimación de costos

Tarifas típicas del mercado de CLORE.AI:

GPU
VRAM
Precio/día
Bueno para

RTX 3060

12GB

$0.15–0.30

Modelos 7B

RTX 3090

24GB

$0.30–1.00

Modelos 13B

RTX 4090

24GB

$0.50–2.00

Inferencia rápida

A100

40GB

$1.50–3.00

Modelos grandes

Precios en USD/día. Las tarifas varían según el proveedor: consulte CLORE.AI Marketplacearrow-up-right para las tarifas actuales.

Próximos pasos

Última actualización

¿Te fue útil?