Ollama

Ejecuta LLMs localmente con Ollama en GPUs de Clore.ai

La forma más fácil de ejecutar LLMs localmente en GPUs de CLORE.AI.

circle-info

Versión actual: v0.6+ — Esta guía cubre Ollama v0.6 y posteriores. Las nuevas funciones clave incluyen salidas estructuradas (aplicación de esquemas JSON), endpoint de embeddings compatible con OpenAI (/api/embed), y carga concurrente de modelos (ejecuta múltiples modelos simultáneamente sin intercambio). Ver Novedades en v0.6+ para más detalles.

circle-check

Requisitos del servidor

Parámetro
Mínimo
Recomendado

RAM

8GB

16GB+

VRAM

6GB

8GB+

Red

100Mbps

500Mbps+

Tiempo de inicio

~30 segundos

-

circle-info

Ollama es liviano y funciona en la mayoría de servidores con GPU. Para modelos más grandes (13B+), elija servidores con 16GB+ de RAM y 12GB+ de VRAM.

¿Por qué Ollama?

  • Instalación con un comando - Sin Python, sin dependencias

  • Biblioteca de modelos - Descarga modelos con ollama pull

  • API compatible con OpenAI - Reemplazo directo

  • Aceleración por GPU - Detección automática de CUDA

  • Multi-modelo - Ejecuta múltiples modelos simultáneamente (v0.6+)

Despliegue rápido en CLORE.AI

Imagen Docker:

Puertos:

Comando:

Verificar que funciona

Después del despliegue, encuentra tu http_pub URL en Mis Pedidos y probar:

circle-exclamation

Accediendo a tu servicio

Cuando se implementa en CLORE.AI, accede a tu instancia de Ollama vía http_pub URL:

circle-info

Todo localhost:11434 los ejemplos a continuación funcionan cuando está conectado vía SSH. Para acceso externo, reemplace con su https://your-http-pub.clorecloud.net/ URL.

Instalación

Usando Docker (Recomendado)

Instalación manual

Este único comando instala la última versión de Ollama, configura el servicio systemd y configura la detección de GPU automáticamente. Funciona en Ubuntu, Debian, Fedora y la mayoría de distribuciones Linux modernas.

Ejecución de modelos

Descargar y Ejecutar

Modelos populares

Modelo
Tamaño
Caso de uso

llama3.2

3B

Rápido, de propósito general

llama3.1

8B

Mejor calidad

llama3.1:70b

70B

Mejor calidad

mistral

7B

Rápido, buena calidad

mixtral

47B

MoE, alta calidad

codellama

7-34B

Generación de código

deepseek-coder-v2

16B

Mejor para código

deepseek-r1

7B-671B

Modelo de razonamiento

deepseek-r1:32b

32B

Razonamiento equilibrado

qwen2.5

7B

Multilingüe

qwen2.5:72b

72B

Mejor calidad de Qwen

phi4

14B

Lo último de Microsoft

gemma2

9B

Modelo de Google

Variantes de modelo

Novedades en v0.6+

Ollama v0.6 introdujo varias características importantes para cargas de trabajo en producción:

Salidas estructuradas (Esquema JSON)

Forzar que las respuestas del modelo coincidan con un esquema JSON específico. Útil para construir aplicaciones que necesiten salidas fiables y parseables:

Ejemplo en Python con salidas estructuradas:

Endpoint de embeddings compatible con OpenAI (/api/embed)

Novedad en v0.6+: el /api/embed endpoint es totalmente compatible con OpenAI y soporta entradas por lotes:

El cliente de OpenAI funciona directamente con /v1/embeddings:

Modelos de embedding populares:

Carga concurrente de modelos

Antes de v0.6, Ollama descargaba un modelo para cargar otro. V0.6+ soporta ejecutar múltiples modelos simultáneamente, limitado solo por la VRAM disponible:

Configurar concurrencia:

Esto es especialmente útil para:

  • Pruebas A/B con diferentes modelos

  • Modelos especializados para distintas tareas (codificación + chat)

  • Mantener modelos de uso frecuente calientes en VRAM

Uso de la API

Chat Completion

circle-info

Agregar "stream": false para obtener la respuesta completa de una vez en lugar de transmitirla.

Endpoint compatible con OpenAI

Streaming

Embeddings

Generación de texto (No-Chat)

Referencia completa de la API

Todos los endpoints funcionan tanto con http://localhost:11434 (vía SSH) y https://your-http-pub.clorecloud.net (externo).

Gestión de modelos

Endpoint
Método
Descripción

/api/tags

GET

Lista todos los modelos descargados

/api/show

POST

Obtener detalles del modelo

/api/pull

POST

Descargar un modelo

/api/delete

DELETE

Eliminar un modelo

/api/ps

GET

Listar modelos actualmente en ejecución

/api/version

GET

Obtener la versión de Ollama

Listar modelos

Respuesta:

Mostrar detalles del modelo

Descargar modelo vía API

Respuesta:

circle-exclamation

Eliminar modelo

Listar modelos en ejecución

Respuesta:

Obtener versión

Respuesta:

Endpoints de inferencia

Endpoint
Método
Descripción

/api/generate

POST

Completación de texto

/api/chat

POST

Completación de chat

/api/embeddings

POST

Generar embeddings (legado)

/api/embed

POST

Generar embeddings v0.6+ (por lotes, compatible con OpenAI)

/v1/chat/completions

POST

Chat compatible con OpenAI

/v1/embeddings

POST

Embeddings compatibles con OpenAI

Creación de modelos personalizados

Crea modelos personalizados con prompts de sistema específicos vía API:

Configuración de GPU

Comprobar uso de GPU

Multi-GPU

Ollama usa automáticamente las GPUs disponibles. Para una GPU específica:

Gestión de memoria

Modelos personalizados (Modelfile)

Crear modelos personalizados con prompts de sistema:

Ejecución como servicio

Systemd

Consejos de rendimiento

  1. Usa la cuantización apropiada

    • Q4_K_M para velocidad

    • Q8_0 para calidad

    • fp16 para máxima calidad

  2. Ajusta el modelo a la VRAM

    • 8GB: modelos 7B (Q4)

    • 16GB: modelos 13B o 7B (Q8)

    • 24GB: modelos 34B (Q4)

    • 48GB+: modelos 70B

  3. Mantener el modelo cargado

  4. Un SSD rápido mejora el rendimiento

    • La carga de modelos y la caché KV se benefician de un almacenamiento rápido

    • Los servidores con SSD NVMe pueden lograr 2-3x mejor rendimiento

Benchmarks

Velocidad de generación (tokens/seg)

Modelo
RTX 3060
RTX 3090
RTX 4090
A100 40GB

Llama 3.2 3B (Q4)

120

160

200

220

Llama 3.1 8B (Q4)

60

100

130

150

Llama 3.1 8B (Q8)

45

80

110

130

Mistral 7B (Q4)

70

110

140

160

Mixtral 8x7B (Q4)

-

35

55

75

Llama 3.1 70B (Q4)

-

-

18

35

DeepSeek-R1 7B (Q4)

65

105

135

155

DeepSeek-R1 32B (Q4)

-

-

22

42

Qwen2.5 72B (Q4)

-

-

15

30

Phi-4 14B (Q4)

-

50

75

90

Benchmarks actualizados en enero de 2026. Las velocidades reales pueden variar según la configuración del servidor.

Tiempo hasta el primer token (ms)

Modelo
RTX 3090
RTX 4090
A100

3B

50

35

25

7-8B

120

80

60

13B

250

150

100

34B

600

350

200

70B

-

1200

500

Longitud de contexto vs VRAM (Q4)

Modelo
2K ctx
4K ctx
8K ctx
16K ctx

7B

5GB

6GB

8GB

12GB

13B

8GB

10GB

14GB

22GB

34B

20GB

24GB

32GB

48GB

70B

40GB

48GB

64GB

96GB

Requisitos de GPU

Modelo
VRAM Q4
VRAM Q8

3B

3GB

5GB

7-8B

5GB

9GB

13B

8GB

15GB

34B

20GB

38GB

70B

40GB

75GB

Estimación de costos

Tarifas típicas del mercado de CLORE.AI:

GPU
VRAM
Precio/día
Bueno para

RTX 3060

12GB

$0.15–0.30

Modelos 7B

RTX 3090

24GB

$0.30–1.00

Modelos 13B-34B

RTX 4090

24GB

$0.50–2.00

Modelos 34B, rápidos

A100

40GB

$1.50–3.00

Modelos 70B

Precios en USD/día. Las tarifas varían según el proveedor: consulte CLORE.AI Marketplacearrow-up-right para las tarifas actuales.

Solución de problemas

El modelo no se carga

Generación lenta

Conexión rehusada

HTTP 502 en la URL http_pub

Esto significa que el servicio aún se está iniciando. Espera 30-60 segundos y vuelve a intentarlo:

Próximos pasos

Última actualización

¿Te fue útil?