Servidor Llama.cpp

Inferencia LLM eficiente con el servidor llama.cpp en GPUs de Clore.ai

Ejecute LLMs de manera eficiente con el servidor llama.cpp en GPU.

circle-check

Requisitos del servidor

Parámetro
Mínimo
Recomendado

RAM

8GB

16GB+

VRAM

6GB

8GB+

Red

200Mbps

500Mbps+

Tiempo de inicio

~2-5 minutos

-

circle-info

Llama.cpp es eficiente en memoria debido a la cuantización GGUF. Los modelos 7B pueden ejecutarse en 6-8 GB de VRAM.

Alquilar en CLORE.AI

  1. Filtrar por tipo de GPU, VRAM y precio

  2. Elegir Bajo demanda (tarifa fija) o Spot (precio de puja)

  3. Configura tu pedido:

    • Selecciona imagen Docker

    • Establece puertos (TCP para SSH, HTTP para interfaces web)

    • Agrega variables de entorno si es necesario

    • Introduce el comando de inicio

  4. Selecciona pago: CLORE, BTC, o USDT/USDC

  5. Crea el pedido y espera el despliegue

Accede a tu servidor

  • Encuentra los detalles de conexión en Mis Pedidos

  • Interfaces web: Usa la URL del puerto HTTP

  • SSH: ssh -p <port> root@<proxy-address>

¿Qué es Llama.cpp?

Llama.cpp es el motor de inferencia más rápido para LLMs en CPU/GPU:

  • Soporta modelos cuantizados GGUF

  • Bajo uso de memoria

  • API compatible con OpenAI

  • Soporte multiusuario

Niveles de cuantización

Formato
Tamaño (7B)
Velocidad
Calidad

Q2_K

2.8GB

El más rápido

Baja

Q4_K_M

4.1GB

Rápido

Bueno

Q5_K_M

4.8GB

Medio

Genial

Q6_K

5.5GB

Más lento

Excelente

Q8_0

7.2GB

El más lento

Mejor

Despliegue rápido

Imagen Docker:

Puertos:

Comando:

Accediendo a tu servicio

Después del despliegue, encuentra tu http_pub URL en Mis Pedidos:

  1. Ir a Mis Pedidos página

  2. Haz clic en tu pedido

  3. Encuentra la http_pub URL (por ejemplo, abc123.clorecloud.net)

Usa https://TU_HTTP_PUB_URL en lugar de localhost en los ejemplos abajo.

Verificar que funciona

circle-exclamation

Referencia completa de la API

Puntos finales estándar

Endpoint
Método
Descripción

/health

GET

Comprobación de salud

/v1/models

GET

Listar modelos

/v1/chat/completions

POST

Chat (compatible con OpenAI)

/v1/completions

POST

Completado de texto (compatible con OpenAI)

/v1/embeddings

POST

Generar embeddings

/completion

POST

Punto final de completado nativo

/tokenize

POST

Tokenizar texto

/detokenize

POST

Detokenizar tokens

/props

GET

Propiedades del servidor

/metrics

GET

Métricas de Prometheus

Tokenizar texto

Respuesta:

Propiedades del servidor

Respuesta:

Construir desde la fuente

Descargar modelos

Opciones del servidor

Servidor básico

Descarga completa a GPU

Todas las opciones

Uso de la API

Chat Completions (compatible con OpenAI)

Streaming

Completado de texto

Embeddings

Ejemplos con cURL

Chat

Completado

Chequeo de salud

Métricas

Multi-GPU

Optimización de memoria

Para VRAM limitada

Para máxima velocidad

Plantillas específicas del modelo

Llama 2 Chat

Mistral Instruct

ChatML (muchos modelos)

Wrapper de servidor en Python

Benchmarking

Comparación de rendimiento

Modelo
GPU
Cuantización
Tokens/seg

Llama 3.1 8B

RTX 3090

Q4_K_M

~100

Llama 3.1 8B

RTX 4090

Q4_K_M

~150

Llama 3.1 8B

RTX 3090

Q4_K_M

~60

Mistral 7B

RTX 3090

Q4_K_M

~110

Mixtral 8x7B

A100

Q4_K_M

~50

Solución de problemas

CUDA no detectado

Memoria insuficiente

Generación lenta

Configuración de producción

Servicio Systemd

Con nginx

Estimación de costos

Tarifas típicas del marketplace de CLORE.AI (a fecha de 2024):

GPU
Tarifa por hora
Tarifa diaria
Sesión de 4 horas

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Los precios varían según el proveedor y la demanda. Consulta CLORE.AI Marketplacearrow-up-right para las tarifas actuales.

Ahorra dinero:

  • Usa Spot market para cargas de trabajo flexibles (a menudo 30-50% más barato)

  • Paga con CLORE tokens

  • Compara precios entre diferentes proveedores

Próximos pasos

Última actualización

¿Te fue útil?