TGI (Text Generation Inference)
Ejecuta HuggingFace Text Generation Inference (TGI) para servir LLMs en producción en las GPU de Clore.ai
Requisitos del servidor
Parámetro
Mínimo
Recomendado
Despliegue rápido en CLORE.AI
Variable
Ejemplo
Descripción
Configuración paso a paso
1. Alquila un servidor GPU en CLORE.AI
2. Conéctate vía SSH
3. Descarga la imagen Docker de TGI
4. Lanza TGI con un modelo
5. Verifica que el servidor esté en ejecución
6. Acceso vía proxy HTTP de CLORE.AI
Ejemplos de uso
Ejemplo 1: Generación de texto básica
Ejemplo 2: Completions de chat (compatible con OpenAI)
Ejemplo 3: Respuesta en streaming
Ejemplo 4: Cliente en Python
Ejemplo 5: Solicitudes por lotes
Configuración
Parámetros clave de la CLI
Parámetro
Por defecto
Descripción
Usando un modelo local
Cuantización AWQ (más rápida que NF4)
Consejos de rendimiento
1. Habilitar Flash Attention 2
2. Ajustar el tamaño máximo de lote
3. Usar bfloat16 en GPUs Ampere+
4. Pre-descargar modelos en almacenamiento persistente
5. Gestión de memoria GPU
6. Decodificación especulativa
Solución de problemas
Problema: "CUDA out of memory"
Problema: la descarga del modelo es lenta
Problema: el servidor no es accesible vía http_pub
Problema: "trust_remote_code is required"
Problema: respuesta inicial lenta
Problema: el contenedor se cierra inmediatamente
Enlaces
Recomendaciones de GPU en Clore.ai
Caso de uso
GPU recomendada
Coste estimado en Clore.ai
Última actualización
¿Te fue útil?