Aphrodite Engine

Ejecuta Aphrodite Engine para inferencia de LLMs en GPU antiguas y modernas en Clore.ai

Aphrodite Engine es un servidor de inferencia LLM optimizado construido sobre vLLM, específicamente diseñado para la comunidad de escritura creativa y roleplay. Admite una amplia gama de GPU a partir de Pascal (serie GTX 1000), lo que lo convierte en la opción perfecta para ejecutar modelos de lenguaje en servidores GPU CLORE.AI antiguos o económicos donde otros marcos fallan. Aphrodite añade APIs compatibles con Kobold, muestreo Mirostat y algoritmos avanzados de muestreo de texto que no se encuentran en los marcos de servicio más comunes.

circle-check

Requisitos del servidor

Parámetro
Mínimo
Recomendado

RAM

16 GB

32 GB+

VRAM

6 GB

16 GB+

Disco

40 GB

150 GB+

GPU

NVIDIA Pascal+ (GTX 1060+)

RTX 3090, A100

circle-info

Aphrodite Engine es uno de los pocos servidores LLM que soporta GPU de la generación Pascal (serie GTX 10xx). Esto lo hace ideal para servidores económicos en CLORE.AI con GPUs antiguas que tienen precios de alquiler bajos.

Despliegue rápido en CLORE.AI

Imagen Docker: alpindale/aphrodite-engine:latest

Puertos: 22/tcp, 2242/http

Variables de entorno:

Variable
Ejemplo
Descripción

HF_TOKEN

hf_xxx...

Token de HuggingFace para modelos restringidos

APHRODITE_MODEL

mistralai/Mistral-7B-Instruct-v0.3

Modelo a cargar

Configuración paso a paso

1. Alquila un servidor GPU en CLORE.AI

El amplio soporte de GPU de Aphrodite te permite conseguir servidores económicos en CLORE.AI Marketplacearrow-up-right:

  • Pascal (GTX 1060–1080 Ti): 6–11 GB de VRAM — ejecutar modelos pequeños de 3B–7B con cuantización

  • Turing (serie RTX 2000): 8–24 GB de VRAM — modelos 7B–13B, mejor rendimiento

  • Ampere (RTX 3000/A100): 24–80 GB de VRAM — modelos 30B–70B, a toda velocidad

  • Ada (serie RTX 4000): 16–24 GB de VRAM — mejor relación rendimiento/costo

2. Conéctate vía SSH

3. Descargar la imagen de Aphrodite Engine

4. Lanzar Aphrodite Engine

Lanzamiento básico con un modelo 7B:

Con token de HuggingFace (Llama 3):

Con cuantización GPTQ (para VRAM limitada):

Con cuantización AWQ:

Ejecutando un modelo GGUF (Aphrodite soporta GGUF de forma nativa):

5. Verifique el Servidor

6. Acceso vía Proxy HTTP de CLORE.AI

El panel de pedidos de CLORE.AI proporciona un http_pub URL para el puerto 2242. Úsalo en tus aplicaciones cliente:


Ejemplos de uso

Ejemplo 1: Chat compatible con OpenAI

Ejemplo 2: Muestreo avanzado con Mirostat

Aphrodite soporta muestreo Mirostat para textos largos más coherentes:

Ejemplo 3: API compatible con Kobold

Aphrodite incluye un endpoint compatible con Kobold para usar con frontends basados en KoboldAI:

Ejemplo 4: Cliente Python con muestreadores personalizados

Ejemplo 5: Completaciones por lotes


Configuración

Parámetros clave de lanzamiento

Parámetro
Por defecto
Descripción

--model

requerido

ID del modelo o ruta local

--host

127.0.0.1

Dirección de enlace

--port

2242

Puerto del servidor

--dtype

auto

float16, bfloat16, float32

--quantization

ninguna

awq, gptq, squeezellm, fp8

--max-model-len

máx. del modelo

Anular la longitud máxima del contexto

--gpu-memory-utilization

0.90

Fracción de memoria GPU

--tensor-parallel-size

1

Número de GPUs para paralelismo tensorial

--max-num-seqs

256

Máximo de secuencias concurrentes

--trust-remote-code

false

Permitir código de modelo personalizado

--api-keys

ninguna

Claves API separadas por comas para autenticación

--served-model-name

nombre del modelo

Nombre personalizado para las respuestas de la API

Añadiendo autenticación por clave API

Luego use Authorization: Bearer mysecretkey1 en las solicitudes.

Cargando modelos locales


Consejos de rendimiento

1. Elige la cuantización adecuada para tu GPU

VRAM GPU
Modelo 7B
Modelo 13B
Modelo 30B

6 GB

GPTQ/AWQ Q4

8 GB

GPTQ Q4

GPTQ Q4 (apretado)

12 GB

Float16

GPTQ Q4

16 GB

Float16

Float16

GPTQ Q4

24 GB

Float16

Float16

GPTQ Q4

48 GB

Float16

Float16

Float16

2. Ajusta la utilización de memoria GPU

Comienza más bajo y aumenta si no obtienes errores OOM.

3. Usar bfloat16 en GPUs Ampere+

Mejor estabilidad numérica que float16, misma velocidad.

4. Optimizar para roleplay/escritura creativa

Estos muestreadores funcionan bien para texto narrativo:

5. Consejos para GPU Pascal (GTX 10xx)

Para GPUs Pascal, evita Flash Attention (no soportado):


Solución de problemas

Problema: "CUDA capability sm_6x not supported"

Las GPUs Pascal requieren tratamiento especial. Usa:

Si aún falla, comprueba si la versión de la imagen admite Pascal:

Problema: "fuera de memoria" en GPUs pequeñas

Problema: Generación de tokens lenta

  • Comprueba que la GPU esté siendo usada realmente: nvidia-smi dentro del contenedor

  • Habilita tamaños de lote mayores: --max-num-seqs 64

  • Usa AWQ en lugar de GPTQ (inferencia más rápida)

Problema: Modelo no encontrado / errores 404

Comprueba siempre que el nombre del modelo coincida exactamente:

Usa el nombre exacto del modelo de la respuesta en tus solicitudes.

Problema: Salida repetitiva

Añade penalización por repetición:

Problema: El contenedor Docker sale silenciosamente


Enlaces


Recomendaciones de GPU en Clore.ai

Caso de uso
GPU recomendada
Coste estimado en Clore.ai

Desarrollo/Pruebas

RTX 3090 (24GB)

~$0.12/gpu/hr

Producción (7B–13B)

RTX 4090 (24GB)

~$0.70/gpu/hr

Modelos grandes (70B+)

A100 80GB / H100

~$1.20/gpu/hr

💡 Todos los ejemplos en esta guía pueden desplegarse en Clore.aiarrow-up-right servidores GPU. Navega las GPUs disponibles y alquila por hora — sin compromisos, acceso root completo.

Última actualización

¿Te fue útil?