TensorRT-LLM

Máximo rendimiento de inferencia de LLM con la optimización NVIDIA TensorRT — desplegado mediante Triton Inference Server

TensorRT-LLM es la biblioteca de código abierto de NVIDIA para optimizar la inferencia de modelos de lenguaje grande en GPUs NVIDIA. Ofrece rendimiento de vanguardia mediante fusión de kernels, cuantización (INT4, INT8, FP8), batching en vuelo y caché KV paginada. Combinado con Triton Inference Server, obtienes una infraestructura de serving de grado producción.

GitHub: NVIDIA/TensorRT-LLMarrow-up-right — 10K+ ⭐


¿Por qué TensorRT-LLM?

Característica
vLLM
TensorRT-LLM

Rendimiento (Throughput)

Excelente

De primera clase

Latencia

Bueno

Excelente

Cuantización INT4/INT8

Parcial

Soporte nativo

Soporte FP8

Limitado

Completo

Paralelismo de tensores multi-GPU

Complejidad de configuración

Bajo

Media-Alta

circle-check

Prerrequisitos

  • Cuenta en Clore.ai con alquiler de GPU

  • GPU NVIDIA con arquitectura Ampere o más reciente (RTX 3090, A100, RTX 4090, H100)

  • Conocimientos básicos de Linux y Docker

  • VRAM suficiente para el modelo elegido


Requisitos de VRAM por modelo

Modelo
FP16
INT8
INT4

Llama-3.1 8B

16GB

8GB

4GB

Llama-3.1 70B

140GB

70GB

35GB

Mistral 7B

14GB

7GB

4GB

Mixtral 8x7B

90GB

45GB

24GB

Qwen2.5 72B

144GB

72GB

36GB


Paso 1 — Elige tu GPU en Clore.ai

  1. Inicia sesión en clore.aiarrow-up-rightMarketplace

  2. Para serving con GPU única (modelos 7B–13B): RTX 4090 24GB o RTX 3090 24GB

  3. Para modelos grandes (70B+): Múltiples A100 80GB o H100

circle-info

Estrategia multi-GPU:

  • 2x A100 80GB → Llama 3.1 70B en FP16 o Qwen2.5 72B

  • 4x A100 80GB → Llama 3.1 405B en INT8

  • Selecciona servidores con múltiples GPUs listadas en el marketplace de Clore.ai


Paso 2 — Despliega Triton Inference Server con el backend TRT-LLM

Imagen Docker:

circle-exclamation

Puertos expuestos:

Variables de entorno:

Volumen/Disco: Mínimo 100GB recomendado


Paso 3 — Conéctate y verifica la instalación


Paso 4 — Descargar y preparar el modelo

Usaremos Llama 3.1 8B como ejemplo. Ajusta las rutas para el modelo que elijas.

Instalar HuggingFace CLI

Descargar pesos del modelo


Paso 5 — Construir el motor TensorRT

Este es el paso clave — compilar el modelo en un engine TensorRT optimizado.

Engine FP16 (Mejor calidad)

Engine INT8 SmoothQuant (Mayor rendimiento)

Engine INT4 AWQ (Máximo rendimiento / Mínima memoria)

circle-info

Tiempo de construcción del engine: 10–30 minutos dependiendo de la GPU y del tamaño del modelo. Esta es una operación única — una vez construido, el engine se carga en segundos.


Paso 6 — Prueba rápida con la API Python de TRT-LLM

Antes de configurar Triton, verifica que el engine funcione:


Paso 7 — Configurar Triton Inference Server

Crear estructura del repositorio de modelos

Crear enlace simbólico del engine

Iniciar Triton Server


Paso 8 — Consultar la API

Cliente compatible con OpenAI

Medir el rendimiento (throughput)


Paso 9 — Añadir wrapper de API compatible con OpenAI

Para una integración más sencilla, añade un wrapper FastAPI:


Solución de problemas

OOM durante la construcción del engine

Triton Server no inicia

Bajo rendimiento (Low Throughput)


Benchmarks de rendimiento en GPUs de Clore.ai

Modelo
GPU
Cuantización
Rendimiento (tokens/seg)

Llama 3.1 8B

RTX 4090

FP16

~3,500

Llama 3.1 8B

RTX 4090

INT4 AWQ

~6,200

Llama 3.1 70B

2x A100 80G

FP16

~1,800

Mixtral 8x7B

2x RTX 4090

INT8

~2,400


Recursos adicionales


TensorRT-LLM en Clore.ai es la opción óptima para serving de LLM en producción donde el rendimiento y la latencia son críticos. Para configuraciones más simples, considera la guía de vLLM.


Recomendaciones de GPU en Clore.ai

Caso de uso
GPU recomendada
Coste estimado en Clore.ai

Desarrollo/Pruebas

RTX 3090 (24GB)

~$0.12/gpu/hr

Inferencia en Producción

RTX 4090 (24GB)

~$0.70/gpu/hr

Modelos grandes (70B+)

A100 80GB

~$1.20/gpu/hr

💡 Todos los ejemplos en esta guía pueden desplegarse en Clore.aiarrow-up-right servidores GPU. Navega las GPUs disponibles y alquila por hora — sin compromisos, acceso root completo.

Última actualización

¿Te fue útil?