裸机
Clore 裸金属——要求与指南
Clore 裸金属 是具有完整 root 访问权限、无共享、无功耗限制的物理(非虚拟化)服务器。适用于 AI/ML、HPC、3D 渲染及各类重负载。
可用 GPU(示例): B200、H100、H200、A100、L40S、RTX 5090、RTX 4090 等。 机房位置(起步): 美国、日本、香港及其他地区 SLA: Tier 3 及以上数据中心,目标可用性 99.99%.
1)Clore 上的裸金属是什么
你将获得整台物理机器(CPU、内存、磁盘、网络、GPU)。
完整 root/SSH 访问,且在可用时提供 IPMI/KVM 以便重装操作系统。
无功耗限制/无隔离层——性能即为硬件实测性能。
不同于基于容器的租用(HiveOS/Docker),资源不共享。
2)硬性基础设施要求(面向提供商)
2.1 数据中心
最低 Tier 3 (Uptime Institute 或认可的本地等效认证)。
文档:DC 证明/证书,冗余说明(供电 N+1/2N、制冷、网络)。
SLA 99.99% 并配备 7x24 小时 NOC。
符合消防安全标准;具备应急流程(RPO/RTO)。
仅限法人实体。 家庭/办公室“机房”不接受。
2.2 硬件基线(最低)
CPU: 至少 64 线程起。
内存: 至少 128 GB(多 GPU/HPC 建议 256 GB 及以上)。
存储: NVMe SSD ≥ 1 TB,吞吐 ≥ 1 GB/s(系统与数据建议 RAID1/10)。
网络: ≥ 1 Gbps 对称(优选 10 Gbps,L2/L3 冗余,静态 IPv4;支持 IPv6 更佳)。
GPU(档次): L40S / H200 及以上,或能承受重负载的等效型号: B200、H100、H200、A100、L40S、RTX 4090/5090(优先选择服务器 A 系列与数据中心卡).
2.3 高性能互联(优先)
InfiniBand (EDR/HDR/NDR),用于分布式训练/HPC。
NVLink/NVSwitch ——节点内多 GPU 场景中为理想选项。
2.4 可靠性与更换
若出现硬件故障—— 一对一 更换(相同或严格等效配置),且不降低 SLA。
必须备有备件/“热备”库存。
2.5 安全与数据卫生
租期间隔的磁盘消毒: blkdiscard/secure erase/单次零填充/TRIM (记录日志)。
IPMI 隔离,封闭 管理 边界,ACL/DDoS 防护策略。
操作系统镜像——经过审查,包含最新微码/补丁,支持 NVIDIA 驱动。
3)最低商务条款
最短租期: 自 1 个月.
定价: 按地理位置具有竞争力的价目(考虑流量/电力/增值税成本)。
API 集成 为强制/期望项(视规模而定),用于自动开通、续期与监控。
4)软件与镜像要求
操作系统: Ubuntu 22.04/24.04 LTS,Rocky/RHEL 9;按需提供 Windows Server(含授权)。
GPU 软件栈: NVIDIA 550.xx+(或特定 GPU 的推荐版本),CUDA 12.2/12.4+。
管理: SSH(必需),IPMI/KVM(优先),为承租方提供临时账户。
容器化: 按需提供 Docker/Podman;如在同一 DC 内提供 master,则可用 Kubernetes。
5)提供商如何接入裸金属
申请与验证:
法人主体,与 Tier 3+ DC 的正式合同,SLA 99.99%,7x24 NOC。
资料包:Tier/等效证书、SLA、消防安全、冗余方案。
验收测试:公共 IPv4,IPMI(KVM)截屏/访问,iPerf3/磁盘性能结果。
SKU 目录与定价:
标准化卡片(GPU 组合、CPU 线程、内存、NVMe、网络、IB/NVLink、DC/位置、流量限制)。
价格与地域绑定。最短期限——2 周。
运营策略:
事件响应时间:≤ 15 分钟;硬件更换:立即等效替换。
记录磁盘消毒,归还后关闭管理访问并审计。
每月提供可用性/事件报告。
6)网络与吞吐要求
最低 1 Gbps (对称),优选 10 Gbps 并具备冗余。
公共 IPv4,按需支持 rDNS;建议提供 IPv6。
基础 ACL、防 DDoS 策略,独立 管理 VLAN 用于 IPMI。
对于 InfiniBand ——机柜/机房内直接 L2 分段及 OFED 可用性。
7)示例工作负载
多 GPU LLM 训练: 8×L40S/NVLink,或由 A100/H100/H200 节点组成的 IB 集群。
视频渲染: 4×RTX 4090/5090,配本地 NVMe 缓存与 10 Gbps 外发流量。
HFT/量化交易: 低时延,CPU 64–128 线程,内存 256–512 GB,NVMe RAID1 和 10 Gbps 网络。
基因组/HPC: A100/H100 搭配 IB HDR/NDR, SLURM / MPI 支持。
标准租用与裸金属对比
定义
宿主操作系统内的容器/环境
整台物理服务器
资源(CPU/内存/带宽)
由调度器共享;cgroup 配额,可能限速
独占;CPU/内存/带宽可预测
Root/权限
容器内 root,无 BIOS 访问
整机 root;可访问 BIOS/UEFI
GPU 驱动(CUDA/NVIDIA)
版本由宿主决定
你自行安装所需版本(CUDA/OFED 等)
GPU 控制
透传但受限(按宿主策略限制 PL/超频)
完整 PL/超频控制;NVLink/NVSwitch(若有)
IPMI/KVM/虚拟介质
无
有(远程控制台、ISO 挂载)
存储
宿主卷/挂载;带宽可能波动
直连 NVMe/RAID;稳定 IOPS/吞吐
网络
端口/NAT/共享带宽
独立网卡 1–10G+;rDNS、VLAN;公共 IPv4
可靠性 / SLA
依赖宿主;不保证等价置换
DC Tier 3+,目标 SLA 99.99%,强制等价置换
最短期限
通常为小时/天
自 2 周起
成本
较低
较高(独占 + 数据中心)
启动时间
秒级–分钟级
从 1 小时至 48 小时可启动
HPC / InfiniBand
通常无
推荐(InfiniBand)、NVLink/NVSwitch
最适合
快速任务、测试、挖矿、短会话
AI/ML/HPC、生产负载、长期项目
对提供商的要求
基础
法人实体、DC Tier 3+、7x24 NOC、区域定价、API
安全 / 数据
遵从宿主策略
租期间隔磁盘消毒,隔离管理(IPMI)
常见问题
裸金属与容器租用有何不同? 裸金属是 完全属于你的物理机器 (CPU/内存/磁盘/网络/GPU)。在容器租用中,资源会被共享,你在隔离环境中工作。
是否必须提供 IPMI? 优先。它能加速系统重装,并提供 KVM 访问,尤其在网络/SSH 出问题时。
节点能通过 IB 互联吗? 可以,分布式训练/HPC 鼓励使用 InfiniBand。请在 SKU 中注明 IB 带宽/类型。
GPU 的最低标准是什么? L40S / H200 级及以上,或可承受重负载的等效型号(B200、H100、A100 等)。
如果服务器“宕机”怎么办? 提供商必须及时提供 同等配置替换 且无性能/服务下降(SLA 99.99%)。
最后更新于
这有帮助吗?