MLC-LLM
¿Qué es MLC-LLM?
Capacidades clave
¿Por qué usar MLC-LLM en Clore.ai?
Inicio rápido en Clore.ai
Paso 1: Encuentra un servidor GPU
Paso 2: Desplegar MLC-LLM
Puerto del contenedor
Propósito
Paso 3: Conectar vía SSH
Instalación y configuración
Opción A: Usar modelos precompilados (Más rápido)
Opción B: Compila tu propio modelo
Ejecutando el servidor API
Iniciar el servidor compatible con OpenAI
Salida de inicio del servidor
Endpoints API disponibles
Endpoint
Método
Descripción
Ejemplos de uso de la API
Completaciones de chat (Python)
Respuesta por streaming
Ejemplo cURL
Modelos precompilados disponibles
Serie Llama 3
Mistral / Mixtral
Gemma
Phi
Opciones de cuantización
Cuantización
Bits
Calidad
VRAM (7B)
VRAM (13B)
Despliegue multi-GPU
Interfaz web de chat
Ajuste de rendimiento
Optimiza el tamaño de lote
Monitorea la utilización de la GPU
Medir el rendimiento (throughput)
Configuración con Docker Compose
Solución de problemas
Falla la descarga del modelo
Fuera de memoria (OOM)
Incompatibilidad de versión de CUDA
Servidor no accesible
Recomendaciones de GPU en Clore.ai
GPU
VRAM
Precio en Clore.ai
Mejor para
Throughput (Llama 3 8B Q4)
Recursos
Última actualización
¿Te fue útil?