Ollama
Ejecuta LLMs localmente con Ollama en GPUs de Clore.ai
Requisitos del servidor
Parámetro
Mínimo
Recomendado
¿Por qué Ollama?
Despliegue rápido en CLORE.AI
Verificar que funciona
Accediendo a tu servicio
Instalación
Usando Docker (Recomendado)
Instalación manual
Ejecución de modelos
Descargar y Ejecutar
Modelos populares
Modelo
Tamaño
Caso de uso
Variantes de modelo
Novedades en v0.6+
Salidas estructuradas (Esquema JSON)
Endpoint de embeddings compatible con OpenAI (/api/embed)
/api/embed)Carga concurrente de modelos
Uso de la API
Chat Completion
Endpoint compatible con OpenAI
Streaming
Embeddings
Generación de texto (No-Chat)
Referencia completa de la API
Gestión de modelos
Endpoint
Método
Descripción
Listar modelos
Mostrar detalles del modelo
Descargar modelo vía API
Eliminar modelo
Listar modelos en ejecución
Obtener versión
Endpoints de inferencia
Endpoint
Método
Descripción
Creación de modelos personalizados
Configuración de GPU
Comprobar uso de GPU
Multi-GPU
Gestión de memoria
Modelos personalizados (Modelfile)
Ejecución como servicio
Systemd
Consejos de rendimiento
Benchmarks
Velocidad de generación (tokens/seg)
Modelo
RTX 3060
RTX 3090
RTX 4090
A100 40GB
Tiempo hasta el primer token (ms)
Modelo
RTX 3090
RTX 4090
A100
Longitud de contexto vs VRAM (Q4)
Modelo
2K ctx
4K ctx
8K ctx
16K ctx
Requisitos de GPU
Modelo
VRAM Q4
VRAM Q8
Estimación de costos
GPU
VRAM
Precio/día
Bueno para
Solución de problemas
El modelo no se carga
Generación lenta
Conexión rehusada
HTTP 502 en la URL http_pub
Próximos pasos
Última actualización
¿Te fue útil?