ExLlamaV2
Inferencia LLM a máxima velocidad con ExLlamaV2 en GPUs de Clore.ai
Alquilar en CLORE.AI
Accede a tu servidor
¿Qué es ExLlamaV2?
Requisitos
Tamaño del modelo
VRAM mínima
Recomendado
Despliegue rápido
Accediendo a tu servicio
Instalación
Descargar modelos
Modelos cuantizados EXL2
Bits por peso (bpw)
BPW
Calidad
VRAM (7B)
API de Python
Generación básica
Generación por streaming
Formato de chat
Modo servidor
Iniciar servidor
Uso de la API
Completados de chat
TabbyAPI (Servidor recomendado)
Funciones de TabbyAPI
Decodificación especulativa
Cuantiza tus propios modelos
Convertir a EXL2
Línea de comandos
Gestión de memoria
Asignación de caché
Multi-GPU
Comparación de rendimiento
Modelo
Motor
GPU
Tokens/seg
Ajustes avanzados
Parámetros de muestreo
Generación por lotes
Solución de problemas
CUDA: fuera de memoria
Carga lenta
Modelo no encontrado
Integración con LangChain
Estimación de costos
GPU
Tarifa por hora
Tarifa diaria
Sesión de 4 horas
Próximos pasos
Última actualización
¿Te fue útil?