# 裸机

## Clore 裸金属 — 要求与指南

**Clore 裸金属** 是具有完整 root 访问权限、无共享且无功率限制的物理（非虚拟化）服务器。适用于 AI/ML、HPC、3D 渲染和任何高负载工作。

**可用 GPU（示例）：** B200、H100、H200、A100、L40S、RTX 5090、RTX 4090 等。\
**位置（起始）：** 美国、日本、香港等\
**服务等级协议（SLA）：** Tier 3 及以上数据中心，目标正常运行时间 **99.99%**.

***

### 1) 什么是 Clore 的裸金属

* 您将获得整台物理机器（CPU、内存、磁盘、网络、GPU）。
* 完整的 root 访问/SSH，并在可用时提供 IPMI/KVM 用于重装操作系统。
* 无功率限制/隔离层——性能与硬件一致。
* 不同于基于容器的租赁（HiveOS/Docker），资源不被共享。

***

### 2) 强制性基础设施要求（针对提供商）

**2.1 数据中心**

* 最低 **等级 3** （Uptime Institute 或认可的本地同等机构）。
* 文件：数据中心证明/证书，冗余说明（电力 N+1/2N、制冷、网络）。
* **SLA 99.99%** 并提供 24/7 NOC。
* 遵守消防安全标准；提供应急程序（RPO/RTO）。
* **仅接受法人实体。** 不接受家庭/办公室“机房”。

**2.2 硬件基础（最低）**

* **CPU：** 至少 64 线程。
* **内存：** 至少 128 GB（多 GPU/HPC 建议 256 GB 及以上）。
* **存储：** NVMe SSD ≥ 1 TB，吞吐量 ≥ 1 GB/s（建议对系统和数据使用 RAID1/10）。
* **网络：** ≥ 1 Gbps 对称（优选 10 Gbps，L2/L3 冗余，静态 IPv4；支持 IPv6 更佳）。
* **GPU（等级）：** L40S / H200 及以上或能承受重负载的同级别卡：\
  B200、H100、H200、A100、L40S、RTX 4090/5090（**优先采用服务器 A 系列和数据中心卡**).

**2.3 高性能互连（优选）**

* **InfiniBand** （EDR/HDR/NDR）用于分布式训练/HPC。
* **NVLink/NVSwitch** — 对节点内多 GPU 情形很有价值。

#### 2.4 可靠性与替换

* 发生硬件故障时—— **一对一** 更换（相同或严格等效配置），且不会降低 SLA。
* 必须备有备件库存/“热”备件。

#### 2.5 安全与数据清理

* 租用间的磁盘消毒： **blkdiscard/安全擦除/一次性写零/TRIM** （有日志记录）。
* IPMI 隔离，封闭的 **管理** 外围，ACL/抗 DDoS 配置。
* 操作系统镜像 — 经过审查，包含最新微码/补丁，支持 **NVIDIA** 驱动程序。

***

### 3) 最低商业条款

* **最低租期：** 从 **1 个月**.
* **定价：** 按地域具有竞争力的价目表（考虑流量/电力/增值税成本）。
* **API 集成** 对于自动配置、续租和监控，API 是强制/期望的（取决于量）。

***

### 4) 软件与镜像要求

* **操作系统：** Ubuntu 22.04/24.04 LTS、Rocky/RHEL 9；按需提供 Windows Server（含授权）。
* **GPU 软件栈：** NVIDIA 550.xx+（或针对特定 GPU 推荐的版本），CUDA 12.2/12.4+。
* **管理：** SSH（必需），IPMI/KVM（优选），并为租户提供临时账号。
* **容器化：** 按需提供 Docker/Podman；若在同一数据中心内配置了 Kubernetes 主节点，则允许使用 Kubernetes。

***

### 5) 提供商如何接入裸金属

1. **申请与验证：**
   * 法人实体，与 Tier 3+ 数据中心签署正式合同，SLA 99.99%，24/7 NOC。
   * 文件包：Tier/等效证书、SLA、消防安全、冗余方案。
   * 验收测试：公网 IPv4、IPMI（KVM）截图/访问、iPerf3/磁盘性能结果。
2. **SKU 目录与定价：**
   * 标准化条目（GPU 组合、CPU 线程数、内存、NVMe、网络、IB/NVLink、数据中心/位置、流量限制）。
   * 价格与地理位置挂钩。最低期限 — 2 周。
3. **运营政策：**
   * 事件响应时间：≤ 15 分钟；硬件更换：立即等效替换。
   * 记录磁盘消毒、归还后关闭管理访问、审计。
   * 每月运行时间/事件报告。

### 6) 网络与吞吐量要求

* 最低 **1 Gbps** （对称），优选 **10 Gbps** 并具备冗余。
* 公网 IPv4，按需支持 rDNS；支持 IPv6 更佳。
* 基本 ACL、抗 DDoS 配置，专用 **管理 VLAN** 用于 IPMI。
* 对于 **InfiniBand** — 机架/机房内的直接 L2 分段和 OFED 可用性。

***

### 7) 示例工作负载

* **多 GPU LLM 训练：** 8×L40S/NVLink 或由 A100/H100/H200 节点组成的 IB 集群。
* **视频渲染：** 4×RTX 4090/5090，配本地 NVMe 缓存和 **10 Gbps** 出口带宽。
* **高频交易/交易：** 低延迟，CPU **64–128** 线程，内存 **256–512 GB**, NVMe **RAID1** 且 **10 Gbps** 网络。
* **基因组学/HPC：** A100/H100 并配 IB **HDR/NDR**, **SLURM** / MPI 支持。

***

## 标准租赁与裸金属比较

| 参数                  | 标准租赁（HiveOS/Docker）      | 裸金属                                 |
| ------------------- | ------------------------ | ----------------------------------- |
| 定义                  | 宿主操作系统内的容器/环境            | 整台物理服务器                             |
| 资源（CPU/内存/带宽）       | 由调度器共享；cgroup 配额，可能被限速   | 专属；CPU/内存/带宽可预测                     |
| Root/权限             | 容器内为 root，无 BIOS 访问      | 完整服务器 root；可访问 BIOS/UEFI            |
| GPU 驱动（CUDA/NVIDIA） | 由宿主定义的版本                 | 您可安装所需版本（CUDA/OFED 等）               |
| GPU 控制              | 以直通方式受限（按主机策略的功率限制/超频限制） | 完全的功率/超频控制；若存在则支持 NVLink/NVSwitch   |
| IPMI/KVM/虚拟介质       | 否                        | 是（远程控制台、ISO 挂载）                     |
| 存储                  | 宿主卷/挂载；带宽可能波动            | 直接 NVMe/RAID；稳定的 IOPS/吞吐量           |
| 网络                  | 端口/NAT/共享带宽              | 专用 NIC 1–10G+；rDNS、VLAN；公网 IPv4     |
| 可靠性 / SLA           | 取决于宿主；没有保证的一比一替换         | 数据中心 Tier 3+，目标 SLA 99.99%，强制一比一替换  |
| 最低期限                | 通常为数小时/数天                | 从 2 周 起                             |
| 成本                  | 较低                       | 较高（专属 + 数据中心）                       |
| 启动时间                | 秒–分钟级                    | 从 1 小时到 48 小时不等                     |
| HPC / InfiniBand    | 通常没有                     | 推荐（InfiniBand），NVLink/NVSwitch      |
| 最适合                 | 快速任务、测试、挖矿、短期会话          | AI/ML/HPC、生产工作负载、长期项目               |
| 提供商要求               | 基础                       | 法人实体、数据中心 Tier 3+、24/7 NOC、区域定价、API |
| 安全 / 数据             | 在宿主策略范围内                 | 租用间的磁盘清理，隔离的管理（IPMI）                |

## 常见问题

**裸金属与容器租赁有何不同？**\
裸金属是 **完全属于您的物理机器** （CPU/内存/磁盘/网络/GPU）。在容器租赁中，资源被共享，您在隔离环境中工作。

**IPMI 是否必须？**\
优选。它能加快操作系统重装并提供 KVM 访问，尤其是在网络/SSH 问题时。

**节点可以通过 IB 互联吗？**\
可以，鼓励在分布式训练/HPC 中使用 InfiniBand。请在 SKU 中注明 IB 带宽/类型。

**GPU 的最低要求是什么？**\
L40S / H200 级别及以上，或能承受重负载的等效卡（B200、H100、A100 等）。

**如果服务器“宕机”怎么办？**\
提供商必须及时提供 **相同的替换机** 且不降低服务质量（SLA 99.99%）。


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/clore.ai/clore.ai-eng-zh/zhen-dui-zhu-ji/advanced/bare-metal.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
