Triton Inference Server

NVIDIA Triton Inference Server es una plataforma de servicio de inferencia de código abierto y nivel de producción que admite prácticamente todos los principales marcos de ML. Diseñada para servir con alto rendimiento y baja latencia, Triton maneja PyTorch, TensorFlow, ONNX, TensorRT, OpenVINO y más — todo desde un único proceso de servidor. Desplégalo en la nube con GPU de Clore.ai para obtener una infraestructura de inferencia escalable y rentable.


¿Qué es Triton Inference Server?

Triton es la respuesta de NVIDIA al desafío de servir modelos de ML a escala:

  • Multi-framework: PyTorch, TensorFlow, TensorRT, ONNX, OpenVINO, backends personalizados en Python

  • Ejecución concurrente: Múltiples modelos, múltiples instancias por GPU

  • Batching dinámico: Agrupa automáticamente las solicitudes para un mayor rendimiento

  • gRPC + HTTP: Protocolos estándar de la industria listos para usar

  • Métricas: Punto de métricas compatible con Prometheus

  • Repositorio de modelos: Gestión de modelos basada en el sistema de archivos

Puertos usados:

Puerto
Protocolo
Propósito

8000

HTTP

API de inferencia REST

8001

gRPC

API de inferencia gRPC

8002

HTTP

Métricas de Prometheus


Prerrequisitos

Requisito
Mínimo
Recomendado

VRAM GPU

8 GB

16–24 GB

GPU

Cualquier NVIDIA con CUDA 11+

RTX 4090 / A100

RAM

16 GB

32 GB

Almacenamiento

20 GB

50 GB

circle-info

Triton también admite inferencia solo en CPU para cargas de trabajo que no usan CUDA. Usa la variant variante de la imagen Docker para ahorrar costos en trabajos por lotes que no requieren GPU.


Paso 1 — Alquila una GPU en Clore.ai

  1. Inicia sesión en clore.aiarrow-up-right.

  2. Haz clic Marketplace y filtra por VRAM ≥ 16 GB.

  3. Selecciona un servidor y haz clic en Configurar.

  4. Establecer imagen Docker: nvcr.io/nvidia/tritonserver:24.01-py3

  5. Establecer puertos abiertos: 22 (SSH), 8000 (HTTP), 8001 (gRPC), 8002 (métricas).

  6. Haz clic Alquilar.

circle-exclamation

Paso 2 — Dockerfile personalizado (con SSH)

La imagen oficial de Triton no incluye un servidor SSH. Usa este Dockerfile:


Paso 3 — Entender el Repositorio de Modelos

Triton carga modelos desde un repositorio de modelos — un directorio con una estructura específica:

Cada modelo necesita:

  1. Un directorio con el nombre del modelo

  2. Un config.pbtxt archivo de configuración

  3. Al menos un subdirectorio de versión (p. ej., 1/) con el archivo del modelo


Paso 4 — Desplegar un Modelo PyTorch

Exportar el modelo a TorchScript

Configurar el Repositorio de Modelos

Crear config.pbtxt


Paso 5 — Desplegar un Modelo ONNX

Exportar a ONNX

Configuración ONNX


Paso 6 — Desplegar un Backend Personalizado en Python

Para modelos que no encajan en backends estándar (preprocesamiento personalizado, lógica de ensamble):


Paso 7 — Iniciar Triton y Probar

Iniciar Triton Server

Comprobar modelos disponibles

Ejecutar inferencia vía HTTP

Ejecutar inferencia vía gRPC


Monitorización con Prometheus

Triton expone métricas en el puerto 8002:

Métricas clave:


Configuración de Batching Dinámico


Solución de problemas

Fallo al Cargar el Modelo

Solución: Comprueba la estructura de directorios y los permisos:

Incompatibilidad de CUDA

Solución: Haz coincidir la versión de la imagen Triton con tu controlador CUDA:

Puerto No Alcanzable

Solución: Verifica que los tres puertos (8000, 8001, 8002) estén reenviados en Clore.ai. Prueba cada uno:

OOM Durante la Carga del Modelo

Solución: Reduce el conteo de instancias o usa instancias CPU para algunos modelos:


Estimación de Costos

GPU
VRAM
Precio estimado
Rendimiento (ResNet50)

RTX 3080

10 GB

~$0.10/hr

~500 req/sec

RTX 4090

24 GB

~$0.35/hr

~1500 req/sec

A100 40GB

40 GB

~$0.80/hr

~3000 req/sec

H100

80 GB

~$2.50/hr

~8000 req/sec


Recursos Útiles


Recomendaciones de GPU en Clore.ai

Caso de uso
GPU recomendada
Coste estimado en Clore.ai

Desarrollo/Pruebas

RTX 3090 (24GB)

~$0.12/gpu/hr

Inferencia en Producción

RTX 4090 (24GB)

~$0.70/gpu/hr

Modelos grandes (70B+)

A100 80GB

~$1.20/gpu/hr

💡 Todos los ejemplos en esta guía pueden desplegarse en Clore.aiarrow-up-right servidores GPU. Navega las GPUs disponibles y alquila por hora — sin compromisos, acceso root completo.

Última actualización

¿Te fue útil?