裸机

Clore 裸金属——要求与指南

Clore 裸金属 是具有完整 root 访问权限、无共享、无功耗限制的物理(非虚拟化)服务器。适用于 AI/ML、HPC、3D 渲染及各类重负载。

可用 GPU(示例): B200、H100、H200、A100、L40S、RTX 5090、RTX 4090 等。 机房位置(起步): 美国、日本、香港及其他地区 SLA: Tier 3 及以上数据中心,目标可用性 99.99%.


1)Clore 上的裸金属是什么

  • 你将获得整台物理机器(CPU、内存、磁盘、网络、GPU)。

  • 完整 root/SSH 访问,且在可用时提供 IPMI/KVM 以便重装操作系统。

  • 无功耗限制/无隔离层——性能即为硬件实测性能。

  • 不同于基于容器的租用(HiveOS/Docker),资源不共享。


2)硬性基础设施要求(面向提供商)

2.1 数据中心

  • 最低 Tier 3 (Uptime Institute 或认可的本地等效认证)。

  • 文档:DC 证明/证书,冗余说明(供电 N+1/2N、制冷、网络)。

  • SLA 99.99% 并配备 7x24 小时 NOC。

  • 符合消防安全标准;具备应急流程(RPO/RTO)。

  • 仅限法人实体。 家庭/办公室“机房”不接受。

2.2 硬件基线(最低)

  • CPU: 至少 64 线程起。

  • 内存: 至少 128 GB(多 GPU/HPC 建议 256 GB 及以上)。

  • 存储: NVMe SSD ≥ 1 TB,吞吐 ≥ 1 GB/s(系统与数据建议 RAID1/10)。

  • 网络: ≥ 1 Gbps 对称(优选 10 Gbps,L2/L3 冗余,静态 IPv4;支持 IPv6 更佳)。

  • GPU(档次): L40S / H200 及以上,或能承受重负载的等效型号: B200、H100、H200、A100、L40S、RTX 4090/5090(优先选择服务器 A 系列与数据中心卡).

2.3 高性能互联(优先)

  • InfiniBand (EDR/HDR/NDR),用于分布式训练/HPC。

  • NVLink/NVSwitch ——节点内多 GPU 场景中为理想选项。

2.4 可靠性与更换

  • 若出现硬件故障—— 一对一 更换(相同或严格等效配置),且不降低 SLA。

  • 必须备有备件/“热备”库存。

2.5 安全与数据卫生

  • 租期间隔的磁盘消毒: blkdiscard/secure erase/单次零填充/TRIM (记录日志)。

  • IPMI 隔离,封闭 管理 边界,ACL/DDoS 防护策略。

  • 操作系统镜像——经过审查,包含最新微码/补丁,支持 NVIDIA 驱动。


3)最低商务条款

  • 最短租期:1 个月.

  • 定价: 按地理位置具有竞争力的价目(考虑流量/电力/增值税成本)。

  • API 集成 为强制/期望项(视规模而定),用于自动开通、续期与监控。


4)软件与镜像要求

  • 操作系统: Ubuntu 22.04/24.04 LTS,Rocky/RHEL 9;按需提供 Windows Server(含授权)。

  • GPU 软件栈: NVIDIA 550.xx+(或特定 GPU 的推荐版本),CUDA 12.2/12.4+。

  • 管理: SSH(必需),IPMI/KVM(优先),为承租方提供临时账户。

  • 容器化: 按需提供 Docker/Podman;如在同一 DC 内提供 master,则可用 Kubernetes。


5)提供商如何接入裸金属

  1. 申请与验证:

    • 法人主体,与 Tier 3+ DC 的正式合同,SLA 99.99%,7x24 NOC。

    • 资料包:Tier/等效证书、SLA、消防安全、冗余方案。

    • 验收测试:公共 IPv4,IPMI(KVM)截屏/访问,iPerf3/磁盘性能结果。

  2. SKU 目录与定价:

    • 标准化卡片(GPU 组合、CPU 线程、内存、NVMe、网络、IB/NVLink、DC/位置、流量限制)。

    • 价格与地域绑定。最短期限——2 周。

  3. 运营策略:

    • 事件响应时间:≤ 15 分钟;硬件更换:立即等效替换。

    • 记录磁盘消毒,归还后关闭管理访问并审计。

    • 每月提供可用性/事件报告。

6)网络与吞吐要求

  • 最低 1 Gbps (对称),优选 10 Gbps 并具备冗余。

  • 公共 IPv4,按需支持 rDNS;建议提供 IPv6。

  • 基础 ACL、防 DDoS 策略,独立 管理 VLAN 用于 IPMI。

  • 对于 InfiniBand ——机柜/机房内直接 L2 分段及 OFED 可用性。


7)示例工作负载

  • 多 GPU LLM 训练: 8×L40S/NVLink,或由 A100/H100/H200 节点组成的 IB 集群。

  • 视频渲染: 4×RTX 4090/5090,配本地 NVMe 缓存与 10 Gbps 外发流量。

  • HFT/量化交易: 低时延,CPU 64–128 线程,内存 256–512 GB,NVMe RAID110 Gbps 网络。

  • 基因组/HPC: A100/H100 搭配 IB HDR/NDR, SLURM / MPI 支持。


标准租用与裸金属对比

参数
标准租用(HiveOS/Docker)
裸金属

定义

宿主操作系统内的容器/环境

整台物理服务器

资源(CPU/内存/带宽)

由调度器共享;cgroup 配额,可能限速

独占;CPU/内存/带宽可预测

Root/权限

容器内 root,无 BIOS 访问

整机 root;可访问 BIOS/UEFI

GPU 驱动(CUDA/NVIDIA)

版本由宿主决定

你自行安装所需版本(CUDA/OFED 等)

GPU 控制

透传但受限(按宿主策略限制 PL/超频)

完整 PL/超频控制;NVLink/NVSwitch(若有)

IPMI/KVM/虚拟介质

有(远程控制台、ISO 挂载)

存储

宿主卷/挂载;带宽可能波动

直连 NVMe/RAID;稳定 IOPS/吞吐

网络

端口/NAT/共享带宽

独立网卡 1–10G+;rDNS、VLAN;公共 IPv4

可靠性 / SLA

依赖宿主;不保证等价置换

DC Tier 3+,目标 SLA 99.99%,强制等价置换

最短期限

通常为小时/天

自 2 周起

成本

较低

较高(独占 + 数据中心)

启动时间

秒级–分钟级

从 1 小时至 48 小时可启动

HPC / InfiniBand

通常无

推荐(InfiniBand)、NVLink/NVSwitch

最适合

快速任务、测试、挖矿、短会话

AI/ML/HPC、生产负载、长期项目

对提供商的要求

基础

法人实体、DC Tier 3+、7x24 NOC、区域定价、API

安全 / 数据

遵从宿主策略

租期间隔磁盘消毒,隔离管理(IPMI)

常见问题

裸金属与容器租用有何不同? 裸金属是 完全属于你的物理机器 (CPU/内存/磁盘/网络/GPU)。在容器租用中,资源会被共享,你在隔离环境中工作。

是否必须提供 IPMI? 优先。它能加速系统重装,并提供 KVM 访问,尤其在网络/SSH 出问题时。

节点能通过 IB 互联吗? 可以,分布式训练/HPC 鼓励使用 InfiniBand。请在 SKU 中注明 IB 带宽/类型。

GPU 的最低标准是什么? L40S / H200 级及以上,或可承受重负载的等效型号(B200、H100、A100 等)。

如果服务器“宕机”怎么办? 提供商必须及时提供 同等配置替换 且无性能/服务下降(SLA 99.99%)。

最后更新于

这有帮助吗?