ExLlamaV2

Inferencia LLM a máxima velocidad con ExLlamaV2 en GPUs de Clore.ai

Ejecuta LLMs a máxima velocidad con ExLlamaV2.

circle-check

Alquilar en CLORE.AI

  1. Filtrar por tipo de GPU, VRAM y precio

  2. Elegir Bajo demanda (tarifa fija) o Spot (precio de puja)

  3. Configura tu pedido:

    • Selecciona imagen Docker

    • Establece puertos (TCP para SSH, HTTP para interfaces web)

    • Agrega variables de entorno si es necesario

    • Introduce el comando de inicio

  4. Selecciona pago: CLORE, BTC, o USDT/USDC

  5. Crea el pedido y espera el despliegue

Accede a tu servidor

  • Encuentra los detalles de conexión en Mis Pedidos

  • Interfaces web: Usa la URL del puerto HTTP

  • SSH: ssh -p <port> root@<proxy-address>

¿Qué es ExLlamaV2?

ExLlamaV2 es el motor de inferencia más rápido para modelos de lenguaje grande:

  • 2-3x más rápido que otros motores

  • Excelente cuantización (EXL2)

  • Bajo uso de VRAM

  • Soporta decodificación especulativa

Requisitos

Tamaño del modelo
VRAM mínima
Recomendado

7B

6GB

RTX 3060

13B

10GB

RTX 3090

34B

20GB

RTX 4090

70B

40GB

A100

Despliegue rápido

Imagen Docker:

Puertos:

Comando:

Accediendo a tu servicio

Después del despliegue, encuentra tu http_pub URL en Mis Pedidos:

  1. Ir a Mis Pedidos página

  2. Haz clic en tu pedido

  3. Encuentra la http_pub URL (por ejemplo, abc123.clorecloud.net)

Usa https://TU_HTTP_PUB_URL en lugar de localhost en los ejemplos abajo.

Instalación

Descargar modelos

Modelos cuantizados EXL2

Bits por peso (bpw)

BPW
Calidad
VRAM (7B)

2.0

Baja

~3GB

3.0

Bueno

~4GB

4.0

Genial

~5GB

5.0

Excelente

~6GB

6.0

Casi-FP16

~7GB

API de Python

Generación básica

Generación por streaming

Formato de chat

Modo servidor

Iniciar servidor

Uso de la API

Completados de chat

TabbyAPI (Servidor recomendado)

TabbyAPI proporciona un servidor ExLlamaV2 con muchas funciones:

Funciones de TabbyAPI

  • API compatible con OpenAI

  • Soporte para múltiples modelos

  • Intercambio en caliente de LoRA

  • Streaming

  • Llamada a funciones

  • API de administración

Decodificación especulativa

Usa un modelo más pequeño para acelerar la generación:

Cuantiza tus propios modelos

Convertir a EXL2

Línea de comandos

Gestión de memoria

Asignación de caché

Multi-GPU

Comparación de rendimiento

Modelo
Motor
GPU
Tokens/seg

Llama 3.1 8B

ExLlamaV2

RTX 3090

~150

Llama 3.1 8B

llama.cpp

RTX 3090

~100

Llama 3.1 8B

vLLM

RTX 3090

~120

Llama 3.1 8B

ExLlamaV2

RTX 3090

~90

Mixtral 8x7B

ExLlamaV2

A100

~70

Ajustes avanzados

Parámetros de muestreo

Generación por lotes

Solución de problemas

CUDA: fuera de memoria

Carga lenta

Modelo no encontrado

Integración con LangChain

Estimación de costos

Tarifas típicas del marketplace de CLORE.AI (a fecha de 2024):

GPU
Tarifa por hora
Tarifa diaria
Sesión de 4 horas

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Los precios varían según el proveedor y la demanda. Consulta CLORE.AI Marketplacearrow-up-right para las tarifas actuales.

Ahorra dinero:

  • Usa Spot market para cargas de trabajo flexibles (a menudo 30-50% más barato)

  • Paga con CLORE tokens

  • Compara precios entre diferentes proveedores

Próximos pasos

Última actualización

¿Te fue útil?