Servidor Llama.cpp
Inferencia LLM eficiente con el servidor llama.cpp en GPUs de Clore.ai
Requisitos del servidor
Parámetro
Mínimo
Recomendado
Alquilar en CLORE.AI
Accede a tu servidor
¿Qué es Llama.cpp?
Niveles de cuantización
Formato
Tamaño (7B)
Velocidad
Calidad
Despliegue rápido
Accediendo a tu servicio
Verificar que funciona
Referencia completa de la API
Puntos finales estándar
Endpoint
Método
Descripción
Tokenizar texto
Propiedades del servidor
Construir desde la fuente
Descargar modelos
Opciones del servidor
Servidor básico
Descarga completa a GPU
Todas las opciones
Uso de la API
Chat Completions (compatible con OpenAI)
Streaming
Completado de texto
Embeddings
Ejemplos con cURL
Chat
Completado
Chequeo de salud
Métricas
Multi-GPU
Optimización de memoria
Para VRAM limitada
Para máxima velocidad
Plantillas específicas del modelo
Llama 2 Chat
Mistral Instruct
ChatML (muchos modelos)
Wrapper de servidor en Python
Benchmarking
Comparación de rendimiento
Modelo
GPU
Cuantización
Tokens/seg
Solución de problemas
CUDA no detectado
Memoria insuficiente
Generación lenta
Configuración de producción
Servicio Systemd
Con nginx
Estimación de costos
GPU
Tarifa por hora
Tarifa diaria
Sesión de 4 horas
Próximos pasos
Última actualización
¿Te fue útil?