MLC-LLM

Despliegue universal de LLM mediante compilación de ML — ejecuta cualquier modelo de lenguaje grande en cualquier hardware con el máximo rendimiento utilizando compilación de aprendizaje automático.

🌟 Más de 20.000 estrellas en GitHub | Mantenido por el equipo MLC AI | Licencia Apache-2.0


¿Qué es MLC-LLM?

MLC-LLM (Compilación de Aprendizaje Automático para Modelos de Lenguaje Grande) es un marco universal que permite el despliegue eficiente de modelos de lenguaje grande en diversos backends de hardware. Aprovechando TVM (Tensor Virtual Machine) como su backend de compilación, MLC-LLM compila modelos LLM directamente a código nativo de hardware — logrando un rendimiento casi óptimo sin ingeniería específica de hardware.

Capacidades clave

  • Compatibilidad universal de hardware — NVIDIA CUDA, AMD ROCm, Apple Metal, Vulkan, WebGPU

  • API REST compatible con OpenAI — reemplazo directo para flujos de trabajo existentes

  • Múltiples formatos de modelo — Llama, Mistral, Gemma, Phi, Qwen, Falcon y más

  • Cuantización de 4 bits / 8 bits — ejecuta modelos grandes en GPUs de consumo

  • Interfaz de chat — UI web integrada para pruebas inmediatas

  • Herramientas Python y CLI — opciones de integración flexibles

¿Por qué usar MLC-LLM en Clore.ai?

El marketplace de GPU de Clore.ai te da acceso a GPUs NVIDIA de alto rendimiento a tarifas de alquiler competitivas. El enfoque de compilación de MLC-LLM exprime el máximo rendimiento de cada GPU — haciéndolo ideal para:

  • Inferencia en API de producción a escala

  • Investigación y benchmarking en distintos tamaños de modelo

  • Servir de forma rentable con modelos cuantizados

  • Despliegue de múltiples modelos en una sola instancia GPU


Inicio rápido en Clore.ai

Paso 1: Encuentra un servidor GPU

  1. Ve a clore.aiarrow-up-right marketplace

  2. Filtrar servidores: GPU NVIDIA, mínimo 8GB de VRAM (16GB+ recomendado para modelos 7B+)

  3. Para un rendimiento óptimo: RTX 3090, RTX 4090, A100 o H100

Paso 2: Desplegar MLC-LLM

circle-info

Nota: MLC-LLM no publica una imagen Docker oficial preconstruida en Docker Hub. El enfoque de despliegue recomendado es usar una imagen base NVIDIA CUDA e instalar MLC-LLM vía pip. Usa nvidia/cuda:12.1.0-devel-ubuntu22.04 como tu imagen base en Clore.ai.

Usa una imagen base NVIDIA CUDA en la configuración de tu pedido en Clore.ai:

Mapeos de puertos:

Puerto del contenedor
Propósito

22

Acceso SSH

8000

Servidor REST API

Variables de entorno recomendadas:

Script de inicio (ejecutar después de SSH):

Paso 3: Conectar vía SSH


Instalación y configuración

Opción A: Usar modelos precompilados (Más rápido)

MLC-AI mantiene una biblioteca de modelos precompilados en Hugging Face. No se necesita compilación:

Opción B: Compila tu propio modelo

Para modelos personalizados o requisitos específicos de cuantización:

circle-info

Tiempo de compilación: Compilar un modelo 7B típicamente toma 10–30 minutos en la primera ejecución. Los artefactos compilados se almacenan en caché y se reutilizan en lanzamientos posteriores.


Ejecutando el servidor API

Iniciar el servidor compatible con OpenAI

Salida de inicio del servidor

Endpoints API disponibles

Endpoint
Método
Descripción

/v1/chat/completions

POST

Completaciones de chat (formato OpenAI)

/v1/completions

POST

Completaciones de texto

/v1/models

GET

Listar modelos disponibles

/v1/debug/dump_event_trace

GET

Depuración de rendimiento


Ejemplos de uso de la API

Completaciones de chat (Python)

Respuesta por streaming

Ejemplo cURL


Modelos precompilados disponibles

MLC-AI proporciona modelos compilados listos para usar en Hugging Face:

Serie Llama 3

Mistral / Mixtral

Gemma

Phi

circle-check

Opciones de cuantización

MLC-LLM soporta múltiples esquemas de cuantización. Elige según tu presupuesto de VRAM:

Cuantización
Bits
Calidad
VRAM (7B)
VRAM (13B)

q4f16_1

4 bits

★★★★☆

~4GB

~7GB

q4f32_1

4 bits (acumulación f32)

★★★★☆

~4GB

~7GB

q8f16_1

8 bits

★★★★★

~8GB

~14GB

q0f16

16 bits (sin cuantización)

★★★★★

~14GB

~26GB

q0f32

32 bits (sin cuantización)

★★★★★

~28GB

~52GB

circle-exclamation

Despliegue multi-GPU

Para modelos grandes (70B+) que requieren múltiples GPUs:

Verifica la topología de la GPU antes de desplegar:

circle-info

Mejor rendimiento: Multi-GPU funciona mejor con tarjetas conectadas por NVLink (p. ej., pares A100 80GB SXM). Las GPUs conectadas por PCIe mostrarán cuellos de botella en modelos grandes.


Interfaz web de chat

MLC-LLM incluye una UI web integrada accesible una vez que el servidor esté en funcionamiento:

Accede a la UI en: http://<clore-node-ip>:<api-port>


Ajuste de rendimiento

Optimiza el tamaño de lote

Monitorea la utilización de la GPU

Medir el rendimiento (throughput)


Configuración con Docker Compose

Para un despliegue listo para producción en Clore.ai usando una imagen base NVIDIA CUDA con MLC-LLM instalado vía pip:


Solución de problemas

Falla la descarga del modelo

Fuera de memoria (OOM)

Incompatibilidad de versión de CUDA

triangle-exclamation

Servidor no accesible


Recomendaciones de GPU en Clore.ai

El enfoque de compilación de MLC-LLM ofrece un rendimiento casi óptimo en todos los niveles de GPU. Elige según el tamaño del modelo y el presupuesto:

GPU
VRAM
Precio en Clore.ai
Mejor para
Throughput (Llama 3 8B Q4)

RTX 3090

24 GB

~$0.12/h

Modelos 7B–13B, serving económico

~85 tok/s

RTX 4090

24 GB

~$0.70/h

Modelos 7B–34B, serving rápido

~140 tok/s

A100 40GB

40 GB

~$1.20/h

34B–70B, API de producción

~110 tok/s

A100 80GB

80 GB

~$2.00/h

70B+, serving multi-modelo

~130 tok/s

H100 SXM

80 GB

~$3.50/hr

Máximo rendimiento, FP8

~280 tok/s

Punto de partida recomendado: La RTX 3090 a ~$0.12/hr ofrece la mejor relación precio-rendimiento para servir Llama 3 8B y Mistral 7B vía MLC-LLM. Los kernels compilados extraen una utilización casi máxima de las GPUs de consumo.

Para modelos 70B (p. ej., Llama 3 70B Q4): usa A100 40GB (~$1.20/hr) o dos RTX 3090s mediante paralelismo de tensores.


Recursos

Última actualización

¿Te fue útil?