TensorRT-LLM
¿Por qué TensorRT-LLM?
Característica
vLLM
TensorRT-LLM
Prerrequisitos
Requisitos de VRAM por modelo
Modelo
FP16
INT8
INT4
Paso 1 — Elige tu GPU en Clore.ai
Paso 2 — Despliega Triton Inference Server con el backend TRT-LLM
Paso 3 — Conéctate y verifica la instalación
Paso 4 — Descargar y preparar el modelo
Instalar HuggingFace CLI
Descargar pesos del modelo
Paso 5 — Construir el motor TensorRT
Engine FP16 (Mejor calidad)
Engine INT8 SmoothQuant (Mayor rendimiento)
Engine INT4 AWQ (Máximo rendimiento / Mínima memoria)
Paso 6 — Prueba rápida con la API Python de TRT-LLM
Paso 7 — Configurar Triton Inference Server
Crear estructura del repositorio de modelos
Crear enlace simbólico del engine
Iniciar Triton Server
Paso 8 — Consultar la API
Cliente compatible con OpenAI
Medir el rendimiento (throughput)
Paso 9 — Añadir wrapper de API compatible con OpenAI
Solución de problemas
OOM durante la construcción del engine
Triton Server no inicia
Bajo rendimiento (Low Throughput)
Benchmarks de rendimiento en GPUs de Clore.ai
Modelo
GPU
Cuantización
Rendimiento (tokens/seg)
Recursos adicionales
Recomendaciones de GPU en Clore.ai
Caso de uso
GPU recomendada
Coste estimado en Clore.ai
Última actualización
¿Te fue útil?