PowerInfer
¿Qué es PowerInfer?
Capacidades clave
¿Por qué usar PowerInfer en Clore.ai?
Requisitos de hardware
Tamaño del modelo
VRAM mínima
RAM recomendada
Rendimiento
Inicio rápido en Clore.ai
Paso 1: Elige tu servidor
Paso 2: Crea una imagen Docker personalizada
Paso 3: Desplegar en Clore.ai
Construir PowerInfer desde la fuente
Verificar compilación
Obtener modelos
Descargar modelos GGUF
Generar predictor de neuronas (Requerido para PowerInfer)
Ejecutando inferencia
Inferencia básica (Sin predictor)
Modo PowerInfer (Con predictor)
Modo de chat interactivo
Modo servidor (API compatible con OpenAI)
Optimizando la división de capas en GPU
VRAM GPU
Modelo 7B
Modelo 13B
Modelo 34B
Modelo 70B
Benchmarks de rendimiento
Comparación de rendimiento (Llama 2 70B, RTX 3090)
Motor
Capas en GPU
Tokens/seg
Ejecutando como servicio
Uso de la API
Solución de problemas
CUDA Fuera de Memoria
Inferencia lenta en CPU
La compilación falla
Recomendaciones de GPU en Clore.ai
GPU
VRAM
Precio en Clore.ai
Modelo máximo (Q4)
Rendimiento (Llama 2 70B Q4)
Recursos
Última actualización
¿Te fue útil?