PowerInfer

Inferencia híbrida CPU/GPU para LLM explotando la localidad de activaciones — ejecutar modelos de 70B parámetros en una sola GPU de consumo dividiendo inteligentemente el cómputo entre CPU y GPU.

🌟 8.000+ estrellas en GitHub | Desarrollado en SJTU IPADS | Licencia MIT


¿Qué es PowerInfer?

PowerInfer es un motor de inferencia de alto rendimiento para Modelos de Lenguaje Extensos que explota una idea clave: Los LLM muestran una fuerte localidad de activación — un pequeño subconjunto de neuronas ("neuronas calientes") se activan consistentemente en la mayoría de los pasos de inferencia, mientras que la mayoría permanecen inactivas.

PowerInfer usa esta propiedad para:

  1. Mantener las neuronas calientes en la GPU para cómputo rápido

  2. Descargar las neuronas frías a CPU/RAM sin una pérdida significativa de calidad

  3. Enrutar dinámicamente el cómputo entre CPU y GPU basado en patrones de activación

El resultado: puedes ejecutar un modelo 70B con solo 16GB de VRAM en lugar de requerir 140GB+ todo en GPU.

Capacidades clave

  • Soporte para GPU de consumo — RTX 3090/4090 pueden ejecutar modelos 70B

  • Planificación consciente de neuronas — un predictor determina el enrutamiento CPU vs GPU por inferencia

  • Degradación mínima de calidad — mantiene >95% de la calidad en precisión completa

  • Compatibilidad con llama.cpp — soporte de formato GGUF

  • Descarga a CPU consciente de NUMA — optimizado para CPUs con alto conteo de núcleos

¿Por qué usar PowerInfer en Clore.ai?

Clore.ai alquila GPUs a un costo mucho menor que las alternativas en la nube. Con PowerInfer:

  • Ejecuta Llama 2 70B en una sola RTX 4090 (24GB de VRAM)

  • Reduce los costos de alquiler de GPU frente a configuraciones multi-GPU

  • Procesa ventanas de contexto largas usando la RAM de la CPU como desbordamiento

  • Ejecuta modelos que antes requerían instancias caras A100/H100


Requisitos de hardware

Tamaño del modelo
VRAM mínima
RAM recomendada
Rendimiento

7B

4GB

16GB

Excelente

13B

6GB

32GB

Muy bueno

34B

12GB

64GB

Bueno

70B

16GB

128GB

Moderado

circle-info

La CPU importa: PowerInfer descarga neuronas frías a la CPU. Una CPU con alto número de núcleos (AMD EPYC, Intel Xeon) con ancho de banda de memoria rápido mejora significativamente el rendimiento para modelos grandes.


Inicio rápido en Clore.ai

Paso 1: Elige tu servidor

En clore.aiarrow-up-right en el marketplace, filtra por:

  • GPU NVIDIA con 16GB+ de VRAM (RTX 3090, RTX 4090, A100)

  • Alto número de núcleos de CPU (16+ núcleos ideal)

  • 64GB+ de RAM para modelos 70B, 32GB para modelos 13B

Paso 2: Crea una imagen Docker personalizada

PowerInfer requiere una configuración Docker personalizada. Usa este Dockerfile:

Construir y subir a Docker Hub o usar inline con Clore.ai:

Paso 3: Desplegar en Clore.ai

En tu pedido de Clore.ai, configura:

  • Imagen Docker: tuusuario/powerinfer:latest

  • Puertos: 22 (SSH)

  • Entorno: NVIDIA_VISIBLE_DEVICES=all


Construir PowerInfer desde la fuente

Si prefieres compilar dentro del contenedor:

Verificar compilación


Obtener modelos

Descargar modelos GGUF

PowerInfer usa el formato GGUF (igual que llama.cpp):

Generar predictor de neuronas (Requerido para PowerInfer)

PowerInfer necesita un predictor de activación neuronal para cada modelo. Este es el diferenciador clave respecto a llama.cpp:

circle-exclamation

Ejecutando inferencia

Inferencia básica (Sin predictor)

Para pruebas sin generar predictor (división estándar GPU/CPU):

Modo PowerInfer (Con predictor)

Modo completo PowerInfer con enrutamiento consciente de neuronas:

Modo de chat interactivo

Modo servidor (API compatible con OpenAI)


Optimizando la división de capas en GPU

El --gpu-layers parámetro determina cuántas capas del transformador mantener en la GPU. Ajústalo según tu VRAM:

Guía de asignación de capas:

VRAM GPU
Modelo 7B
Modelo 13B
Modelo 34B
Modelo 70B

8GB

Todas (32)

20 capas

10 capas

4 capas

16GB

Todas (32)

Todas (40)

25 capas

10 capas

24GB

Todas (32)

Todas (40)

Todas (60)

20 capas

48GB

Todas (32)

Todas (40)

Todas (60)

Todas (80)


Benchmarks de rendimiento

Comparación de rendimiento (Llama 2 70B, RTX 3090)

Motor
Capas en GPU
Tokens/seg

llama.cpp (solo GPU)

20/80

~4 t/s

llama.cpp (solo CPU)

0/80

~1 t/s

PowerInfer

20/80 + predictor

~12 t/s

circle-check

Ejecutando como servicio

Crea un servicio systemd para servir la API de forma persistente:


Uso de la API

Una vez que el servidor esté en ejecución, usa cualquier cliente compatible con OpenAI:


Solución de problemas

CUDA Fuera de Memoria

Inferencia lenta en CPU

La compilación falla

triangle-exclamation

Recomendaciones de GPU en Clore.ai

El diseño híbrido CPU/GPU de PowerInfer cambia la economía de ejecutar modelos grandes. Los servidores Clore.ai con GPUs de alta VRAM Y CPUs rápidas son ideales.

GPU
VRAM
Precio en Clore.ai
Modelo máximo (Q4)
Rendimiento (Llama 2 70B Q4)

RTX 3090

24 GB

~$0.12/h

70B (con 64GB+ RAM)

~8–12 tok/s

RTX 4090

24 GB

~$0.70/h

70B (offload de CPU más rápido)

~12–18 tok/s

A100 40GB

40 GB

~$1.20/h

70B (offload mínimo)

~35–45 tok/s

A100 80GB

80 GB

~$2.00/h

70B en precisión completa

~50–60 tok/s

circle-info

Punto ideal de PowerInfer: RTX 3090 a ~ $0.12/h ejecutando Llama 2 70B Q4 es un avance para usuarios con presupuesto limitado. Obtienes un modelo 70B por 10–12× menos que el costo de alquilar una A100. El rendimiento es más bajo (~10 tok/s), pero para investigación o inferencia de bajo tráfico es un valor imbatible.

La CPU importa tanto como la GPU: PowerInfer descarga las neuronas "frías" a la CPU. Los servidores Clore.ai con CPUs AMD EPYC o Intel Xeon (muchos núcleos, alto ancho de banda de memoria) superarán significativamente a CPUs de consumo de un solo socket. Revisa las especificaciones del servidor antes de alquilar para trabajar con modelos grandes.

Cuello de botella de ancho de banda de memoria: Para modelos 70B, el ancho de banda de la RAM de la CPU es el factor limitante durante el cálculo de neuronas frías. Los servidores con RAM DDR5 ECC o arquitecturas adyacentes a HBM verán mejor rendimiento.


Recursos

Última actualización

¿Te fue útil?