ONNX Runtime GPU
¿Por qué ONNX Runtime?
Característica
ONNX Runtime
TorchScript
TensorFlow Serving
Proveedores de ejecución compatibles
Proveedor
Hardware
Caso de uso
Prerrequisitos
Paso 1 — Alquila una GPU en Clore.ai
Paso 2 — Despliega tu contenedor
Paso 3 — Instala ONNX Runtime con soporte GPU
Paso 4 — Exporta tu modelo a ONNX
Exportación de modelo PyTorch
Exportación de HuggingFace Transformers
Exportar con optimización ORT
Paso 5 — Ejecuta inferencia con ONNX Runtime
Inferencia básica en GPU
Inferencia por lotes para rendimiento (throughput)
Paso 6 — Proveedor de ejecución TensorRT (rendimiento máximo)
Paso 7 — Cuantización INT8 para velocidad máxima
Paso 8 — Construye una API de inferencia
Paso 9 — Monitorea el uso de la GPU
Benchmarks de rendimiento
Modelo
GPU
Proveedor
Rendimiento (inf/sec)
Solución de problemas
Proveedor CUDA no disponible
Errores de compilación de TensorRT
Errores de desajuste de forma (Shape Mismatch)
Avanzado: Pipeline multi-modelo
Recursos adicionales
Recomendaciones de GPU en Clore.ai
Caso de uso
GPU recomendada
Coste estimado en Clore.ai
Última actualización
¿Te fue útil?