Bare Metal

Clore Bare Metal — Requisitos y Guía

Clore Bare Metal son servidores físicos (no virtualizados) con acceso root completo, sin compartición y sin límites de potencia. Adecuados para IA/ML, HPC, renderizado 3D y cualquier carga de trabajo pesada.

GPU disponibles (ejemplos): B200, H100, H200, A100, L40S, RTX 5090, RTX 4090, etc. Ubicaciones (inicio): EE. UU., Japón, Hong Kong y otros SLA: Centros de datos Tier 3 o superiores, tiempo de actividad objetivo 99.99%.


1) Qué es Bare Metal en Clore

  • Obtienes una máquina física completa (CPU, RAM, discos, red, GPU).

  • Acceso root/SSH completo y, cuando esté disponible, IPMI/KVM para reinstalación del SO.

  • Sin límites de PL / capas de aislamiento — el rendimiento coincide con el hardware.

  • Se diferencia de los alquileres basados en contenedores (HiveOS/Docker) en que los recursos no se comparten.


2) Requisitos de infraestructura obligatorios (para proveedores)

2.1 Centro de datos

  • Mínimo Nivel 3 (Uptime Institute o un equivalente local reconocido).

  • Documentos: carta/certificado del DC, descripción de redundancia (alimentación N+1/2N, refrigeración, red).

  • SLA 99.99% con un NOC 24/7.

  • Cumplimiento de normas de seguridad contra incendios; disponibilidad de procedimientos de emergencia (RPO/RTO).

  • Solo personas jurídicas. No se aceptan “salas de servidores” en domicilios/oficinas.

2.2 Base de hardware (mínimo)

  • CPU: desde 64 hilos.

  • RAM: desde 128 GB (se recomiendan 256 GB+ para multi-GPU/HPC).

  • Almacenamiento: NVMe SSD ≥ 1 TB, rendimiento ≥ 1 GB/s (se recomienda RAID1/10 para sistema y datos).

  • Red: ≥ 1 Gbps simétrico (10 Gbps preferido, redundancia L2/L3, IPv4 estático; IPv6 es una ventaja).

  • GPU (nivel): L40S / H200 y superiores o equivalentes resistentes a cargas de trabajo pesadas: B200, H100, H200, A100, L40S, RTX 4090/5090 (se prefieren tarjetas serie A para servidores y tarjetas de centro de datos).

2.3 Interconexiones de alto rendimiento (preferidas)

  • InfiniBand (EDR/HDR/NDR) para entrenamiento distribuido/HPC.

  • NVLink/NVSwitch — deseable para multi-GPU dentro de un nodo.

2.4 Fiabilidad y reemplazo

  • En caso de fallo de hardware — reemplazo uno por uno (configuración idéntica o estrictamente equivalente) sin degradación del SLA.

  • Stock obligatorio de repuestos / piezas de intercambio “calientes”.

2.5 Seguridad e higiene de datos

  • Esterilización de discos entre alquileres: blkdiscard/borrado seguro/pasada de ceros/TRIM (registro).

  • Aislamiento IPMI, perímetro cerrado mgmt ACL/perfil anti-DDoS.

  • Imágenes de SO — verificadas, con microcódigos/parches actualizados, soporte para NVIDIA drivers.


3) Términos comerciales mínimos

  • Plazo mínimo de alquiler: desde 1 mes.

  • Precios: listas de precios competitivas por geolocalización (teniendo en cuenta tráfico/electricidad/IVA).

  • Integración API es obligatoria/deseada (dependiendo del volumen) para aprovisionamiento automático, extensiones y monitorización.


4) Requisitos de software e imágenes

  • SO: Ubuntu 22.04/24.04 LTS, Rocky/RHEL 9; bajo petición — Windows Server (con licenciamiento).

  • Pila de GPU: NVIDIA 550.xx+ (o las recomendadas para GPUs específicas), CUDA 12.2/12.4+.

  • Gestión: SSH (obligatorio), IPMI/KVM (preferido) con cuentas temporales para el arrendatario.

  • Contenerización: Docker/Podman bajo petición; Kubernetes — permitido si se aprovisiona un master dentro del mismo DC.


5) Cómo puede un proveedor conectarse a Bare Metal

  1. Solicitud y verificación:

    • Persona jurídica, contrato oficial con un DC Tier 3+, SLA 99.99%, NOC 24/7.

    • Paquete de documentación: certificado de Tier/equivalente, SLA, seguridad contra incendios, esquema de redundancia.

    • Pruebas de aceptación: IPv4 pública, captura de pantalla/acceso a IPMI (KVM), resultados de iPerf3/rendimiento de disco.

  2. Catálogo SKU y precios:

    • Tarjetas estandarizadas (composición de GPU, hilos de CPU, RAM, NVMe, red, IB/NVLink, DC/ubicación, límites de tráfico).

    • Precios vinculados a la geografía. Plazo mínimo — 2 semanas.

  3. Políticas operativas:

    • Tiempo de respuesta ante incidentes: ≤ 15 min; reemplazo de hardware: equivalente de forma inmediata.

    • Registro de esterilización de discos, cierre de acceso administrativo tras la devolución, auditoría.

    • Informes mensuales sobre tiempo de actividad/incidentes.

6) Requisitos de red y rendimiento

  • Mínimo 1 Gbps (simétrico), preferiblemente 10 Gbps con redundancia.

  • IPv4 pública, soporte rDNS bajo petición; IPv6 es deseable.

  • ACL básicas, perfil anti-DDoS, mgmt-VLAN dedicada para IPMI.

  • Para InfiniBand — segmentación L2 directa dentro del rack/sala y disponibilidad de OFED.


7) Ejemplos de cargas de trabajo

  • Entrenamiento LLM multi-GPU: 8×L40S/NVLink o un clúster IB de nodos A100/H100/H200.

  • Renderizado de video: 4×RTX 4090/5090 con caché NVMe local y 10 Gbps egreso.

  • HFT/trading: bajas latencias, CPU 64–128 hilos, RAM 256–512 GB, NVMe RAID1 y 10 Gbps red.

  • Genómica/HPC: A100/H100 con IB HDR/NDR, SLURM / soporte MPI.


Comparación de Alquiler Estándar y Bare Metal

Parámetro
Alquiler estándar (HiveOS/Docker)
Bare Metal

Qué es

Contenedor/entorno dentro del SO anfitrión

Servidor físico completo

Recursos (CPU/RAM/ancho de banda)

Compartidos por el programador; cuotas cgroup, posible limitación

Exclusivos; CPU/RAM/ancho de banda predecibles

Root/privilegios

root dentro del contenedor, sin acceso a BIOS

Root completo del servidor; acceso a BIOS/UEFI

Drivers de GPU (CUDA/NVIDIA)

Versión definida por el anfitrión

Tú instalas las versiones requeridas (CUDA/OFED, etc.)

Control de GPU

Passthrough con restricciones (PL/OC según la política del anfitrión)

Control total de PL/OC; NVLink/NVSwitch (si está presente)

IPMI/KVM/Medios Virtuales

No

Sí (consola remota, montaje de ISO)

Almacenamiento

Volúmenes/montajes del anfitrión; el ancho de banda puede fluctuar

NVMe/RAID directo; IOPS/rendimiento estables

Red

Puertos/NAT/ancho de banda compartido

NIC dedicada 1–10G+; rDNS, VLAN; IPv4 pública

Fiabilidad / SLA

Depende del anfitrión; no hay intercambio garantizado idéntico

DC Tier 3+, SLA objetivo 99.99%, reemplazo obligatorio idéntico

Plazo mínimo

Normalmente horas/días

Desde 2 semanas

Costo

Más bajo

Más alto (exclusivo + centro de datos)

Tiempo para iniciar

Segundos–minutos

desde 1 h hasta 48 h para iniciar

HPC / InfiniBand

Normalmente no

Recomendado (InfiniBand), NVLink/NVSwitch

Mejor para

Tareas rápidas, pruebas, minería, sesiones cortas

IA/ML/HPC, cargas de producción, proyectos largos

Requisitos para el proveedor

Básicos

Persona jurídica, DC Tier 3+, NOC 24/7, precios regionales, API

Seguridad / datos

Dentro de las políticas del anfitrión

Esterilización de discos entre alquileres, gestión aislada (IPMI)

Preguntas frecuentes

¿En qué se diferencia Bare Metal del alquiler de contenedores? Bare Metal es completamente tu máquina física (CPU/RAM/Disco/Red/GPU). En el alquiler de contenedores, los recursos se comparten y trabajas en un entorno aislado.

¿Es IPMI obligatorio? Preferido. Acelera la reinstalación del SO y proporciona acceso KVM, especialmente para problemas de red/SSH.

¿Se pueden interconectar nodos por IB? Sí, se fomenta InfiniBand para entrenamiento distribuido/HPC. Especifica el ancho de banda/tipo de IB en el SKU.

¿Cuál es el mínimo para GPUs? Nivel L40S / H200 y superiores, o un equivalente resistente a cargas de trabajo pesadas (B200, H100, A100, etc.).

¿Qué pasa si el servidor “cae”? El proveedor debe entregar rápidamente un reemplazo idéntico sin degradación (SLA 99.99%).

Última actualización

¿Te fue útil?