TGI (Text Generation Inference)

Ejecuta HuggingFace Text Generation Inference (TGI) para servir LLMs en producción en las GPU de Clore.ai

Text Generation Inference (TGI) es el framework de HuggingFace para servir LLM en producción, diseñado para inferencia de alto rendimiento y baja latencia. Admite Flash Attention 2, agrupamiento continuo, PagedAttention y paralelismo tensorial de forma nativa, lo que lo convierte en la solución ideal para desplegar modelos de lenguaje grandes a escala en servidores GPU de CLORE.AI.

circle-check

Requisitos del servidor

Parámetro
Mínimo
Recomendado

RAM

16 GB

32 GB+

VRAM

8 GB

24 GB+

Disco

50 GB

200 GB+

GPU

Cualquier NVIDIA (Ampere+ para Flash Attention)

A100, H100, RTX 4090

circle-info

Flash Attention 2 requiere arquitectura Ampere o más reciente (RTX 3000+, A100, H100). Para GPUs más antiguas, TGI volverá automáticamente a la atención estándar.

Despliegue rápido en CLORE.AI

Imagen Docker: ghcr.io/huggingface/text-generation-inference:latest

Puertos: 22/tcp, 8080/http

Variables de entorno:

Variable
Ejemplo
Descripción

MODEL_ID

mistralai/Mistral-7B-Instruct-v0.3

ID de modelo en HuggingFace

HF_TOKEN

hf_xxx...

Token de HuggingFace (para modelos con acceso restringido)

NUM_SHARD

2

Número de GPUs para paralelismo tensorial

MAX_INPUT_LENGTH

4096

Máximo de tokens de entrada

MAX_TOTAL_TOKENS

8192

Máximo de tokens de entrada + salida

QUANTIZE

bitsandbytes-nf4

Método de cuantización

Configuración paso a paso

1. Alquila un servidor GPU en CLORE.AI

Ve a CLORE.AI Marketplacearrow-up-right y filtrar servidores por:

  • VRAM ≥ 24 GB para modelos 7B (precisión completa)

  • VRAM ≥ 12 GB para modelos 7B (cuantización a 4 bits)

  • VRAM ≥ 80 GB para modelos 70B (precisión completa, GPU única)

2. Conéctate vía SSH

Después de que tu pedido sea confirmado, conéctate a tu servidor usando los detalles SSH del panel de CLORE.AI:

O usa la Terminal Web desde el panel de tu pedido en CLORE.AI.

3. Descarga la imagen Docker de TGI

4. Lanza TGI con un modelo

Lanzamiento básico (Mistral 7B):

Con token de HuggingFace (para modelos con acceso restringido como Llama 3):

Con cuantización a 4 bits (para menor VRAM):

Paralelismo tensorial multi-GPU (para modelos 70B):

5. Verifica que el servidor esté en ejecución

Respuesta esperada: {"status":"ok"}

6. Acceso vía proxy HTTP de CLORE.AI

En el panel de tu pedido en CLORE.AI verás tu http_pub URL para el puerto 8080. Esto permite acceso desde navegador/API sin túnel SSH:


Ejemplos de uso

Ejemplo 1: Generación de texto básica

Ejemplo 2: Completions de chat (compatible con OpenAI)

TGI admite el formato de la API de completions de chat de OpenAI:

Ejemplo 3: Respuesta en streaming

Ejemplo 4: Cliente en Python

Ejemplo 5: Solicitudes por lotes


Configuración

Parámetros clave de la CLI

Parámetro
Por defecto
Descripción

--model-id

requerido

ID de modelo de HuggingFace o ruta local

--num-shard

1

Número de particiones GPU (paralelismo tensorial)

--max-concurrent-requests

128

Máximo de solicitudes simultáneas

--max-input-length

1024

Longitud máxima de tokens de entrada

--max-total-tokens

2048

Máximo de tokens de entrada + salida

--max-batch-total-tokens

auto

Máximo de tokens por lote

--quantize

ninguna

Cuantización: bitsandbytes-nf4, gptq, awq

--dtype

auto

float16, bfloat16

--trust-remote-code

false

Permitir código de modelo personalizado

--port

80

Puerto del servidor

Usando un modelo local

Si tienes un modelo descargado localmente:

Cuantización AWQ (más rápida que NF4)


Consejos de rendimiento

1. Habilitar Flash Attention 2

Flash Attention 2 se habilita automáticamente en GPUs Ampere+ (RTX 3000+, A100, H100). No se necesita configuración adicional.

2. Ajustar el tamaño máximo de lote

Para escenarios de alto rendimiento, aumenta el tamaño del lote:

3. Usar bfloat16 en GPUs Ampere+

Esto es más estable numéricamente que float16 y rinde de forma idéntica en GPUs modernas.

4. Pre-descargar modelos en almacenamiento persistente

Luego monta la ruta local para evitar volver a descargar en reinicios.

5. Gestión de memoria GPU

Para RTX 3090/4090 (24GB VRAM):

6. Decodificación especulativa

Para generación más rápida usando modelos más pequeños como borrador:


Solución de problemas

Problema: "CUDA out of memory"

Solución: Reducir --max-total-tokens o habilita la cuantización:

Problema: la descarga del modelo es lenta

Solución: Usa mirror de HuggingFace o pre-descarga:

Problema: el servidor no es accesible vía http_pub

Solución: Asegúrate de que el puerto 8080 esté mapeado correctamente. TGI escucha internamente en el puerto 80, pero lo mapeas al 8080 externamente:

Problema: "trust_remote_code is required"

Algunos modelos (p. ej., Falcon, Phi) requieren código personalizado:

Problema: respuesta inicial lenta

La primera solicitud desencadena la carga del modelo en la VRAM. Esto es normal. Las solicitudes posteriores serán rápidas.

Problema: el contenedor se cierra inmediatamente


Enlaces


Recomendaciones de GPU en Clore.ai

Caso de uso
GPU recomendada
Coste estimado en Clore.ai

Desarrollo/Pruebas

RTX 3090 (24GB)

~$0.12/gpu/hr

Producción (7B–13B)

RTX 4090 (24GB)

~$0.70/gpu/hr

Modelos grandes (70B+)

A100 80GB / H100

~$1.20/gpu/hr

💡 Todos los ejemplos en esta guía pueden desplegarse en Clore.aiarrow-up-right servidores GPU. Navega las GPUs disponibles y alquila por hora — sin compromisos, acceso root completo.

Última actualización

¿Te fue útil?