# 故障排查

在CLORE.AI市场租用GPU服务器时的常见问题及解决方案。

{% hint style="success" %}
所有示例都可以在通过以下方式租用的 GPU 服务器上运行： [CLORE.AI 市场](https://clore.ai/marketplace).
{% endhint %}

{% hint style="info" %}
本指南基于CLORE.AI平台技术文档。
{% endhint %}

## 目录

* [订单创建问题](#order-creation-issues)
* [连接问题](#connection-issues)
* [容器问题](#container-issues)
* [GPU问题](#gpu-issues)
* [支付问题](#payment-issues)
* [平台限制](#platform-limits)

***

## 订单创建问题

### 订单失败：“余额不足”

**原因：** 资金不足以支付创建费用和最低押金。

**解决方案：**

* 检查您在所选货币（CLORE、BTC 或 USDT/USDC）中的余额
* 创建费用在订单创建时收取
* 充值余额，确保足够支付数小时的租用费用

### 订单失败：“服务器不可用”

**原因：** 服务器已被租用或处于离线状态。

**解决方案：**

* 刷新市场页面
* 检查服务器状态（在线/离线指示）
* 对于即刻（Spot）租用——您可能已被出价超过

### 订单卡在“创建中”状态

**原因：** 容器正在部署或发生错误。

**解决方案：**

1. 等待2-5分钟（Docker镜像正在拉取）
2. 检查日志（位于） **我的订单**
3. 大型镜像（10GB+）下载时间更长
4. 如果卡住超过10分钟——取消并重试

***

## 连接问题

### 无法通过SSH连接

**原因：** 端口未配置或容器未就绪。

**检查清单：**

1. 端口22必须设置为 **TCP** （不是HTTP）
2. 容器状态必须是 **活动** （不是创建中）
3. 使用来自的正确映射端口 **我的订单**

**正确的SSH命令：**

```bash
ssh -p <MAPPED_PORT> root@<PROXY_ADDRESS>
```

其中 `<MAPPED_PORT>` 是公网端口（例如 45678），不是22端口。

### SSH可用但网页界面无法打开

**原因：** 端口设置为TCP而非HTTP，或服务未运行。

**解决方案：**

1. 网页界面端口必须设置为 **HTTP** （不是TCP）
2. 服务必须监听于 `0.0.0.0`，而不是 `localhost`
3. 检查日志——服务可能在启动时崩溃

**正确的端口配置：**

```
22/tcp      - SSH访问
7860/http   - Gradio/WebUI 界面
8000/http   - API 服务器
```

### “连接被拒绝”错误

**原因：** 容器内的服务未运行或监听错误的地址。

**解决方案：**

1. SSH进入容器并检查服务状态：

   ```bash
   ps aux | grep python
   netstat -tlnp
   ```
2. 服务必须监听于 `0.0.0.0`，而不是 `127.0.0.1`:

   ```bash
   # 错误示例：
   python app.py --host 127.0.0.1

   # 正确示例：
   python app.py --host 0.0.0.0
   ```

### “连接超时”错误

**原因：** 地址/端口错误或网络问题。

**检查清单：**

1. 使用来自 的代理地址 **我的订单** （不是服务器IP！）
2. 使用映射端口（公网端口，而非容器端口）
3. 使用正确的协议（HTTP端口使用 http\://）

***

## 容器问题

### 容器持续重启

**原因：** 启动命令错误或资源不足。

**解决方案：**

1. 检查日志（位于） **我的订单**
2. 简化启动命令：

   ```bash
   # 不好——过长的命令可能失败：
   apt update && apt install -y ... && pip install ... && python ...

   # 更好——先用简单命令启动：
   sleep infinity
   ```
3. 然后SSH进入并手动配置

### 无法重置容器

**原因：** 重置之间存在冷却期。

**事实：** 重置容器具有一个 **120 秒** 冷却时间。

**解决方案：** 在重置尝试之间等待2分钟。

### 重启后数据丢失

**原因：** 数据未保存在持久存储中。

**重要：**

* 容器内的数据会在 **重置时被保留** （Reset Container）
* 数据会在 **订单被取消或过期时丢失** 在结束租用前务必下载结果：
* scp -P \<port> root@\<proxy>:/workspace/results.tar.gz ./

  ```bash
  启动命令未执行
  ```

### 语法错误或镜像问题。

**原因：** 常见错误：

**# 错误：在 \ 之后有多余空格**

```bash

apt update && \
apt install -y git   # <-- 下一行之前有空格
apt install -y git && \

# 正确示例：
apt install -y git   # <-- 下一行之前有空格
使用简单的启动命令：
python app.py
```

**解决方案：**

1. bash `通过SSH配置一切` 或 `sleep infinity`
2. 或创建包含预装软件的自定义Docker镜像
3. GPU在容器内不可见

***

## GPU问题

### 检查：

**如果命令未找到：**

```bash
nvidia-smi
```

**Docker镜像必须支持 CUDA**

* 使用启用 CUDA 的镜像：
* 如果未显示GPU： `pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime`

**确认服务器是否配备GPU（检查市场列表）**

* 联系服务器提供商
* 错误：

### CUDA 版本不匹配

**CUDA 驱动版本不足以支持 CUDA 运行时版本** `镜像中的 CUDA 版本与服务器驱动不兼容。`

**原因：** 检查驱动版本：

**解决方案：**

* （右上角） `nvidia-smi` 使用与驱动兼容的镜像 CUDA 版本
* 安全选择：CUDA 11.8、CUDA 12.1
* GPU 内存不足

### 使用更小的模型或量化

**CUDA 驱动版本不足以支持 CUDA 运行时版本** `CUDA 内存不足（out of memory）`

**光照未改变**

1. 添加内存优化标志：
2. Stable Diffusion：
   * \--medvram `--lowvram` 或 `大型语言模型（LLMs）：`
   * load\_in\_8bit=True `load_in_4bit=True` 或 `清理内存：`
3. 租用具有更多显存的服务器 `torch.cuda.empty_cache()`
4. 支持的货币

***

## 支付问题

### CLORE.AI 支持三种货币：

\- 平台的原生代币

* **CLORE** - 比特币
* **BTC** - 美元
* **- 稳定币（如果由提供者启用）** 订单取消：“被超越出价”

### 有人在现货市场出价更高。

**原因：** 以确保获得有保障的租用

**解决方案：**

* 使用 **按需** 或提高您的现货出价
* 余额被扣但订单未创建

### 即使订单失败也会收取创建费用。

**原因：** 创建费用通常很少

**解决方案：**

* 在历史记录中检查取消原因
* 对于反复出现的问题请联系客服支持
* 经从 CLORE.AI 代码库核实：

***

## 平台限制

限制

| 参数             | 每个订单的端口数           |
| -------------- | ------------------ |
| 环境变量总长度        | **5**              |
| 12,288 字符      | **（12KB）** 单个环境变量名 |
| 128 字符         | 单个环境变量值            |
| 1,536 字符       | SSH 密钥             |
| 3,072 字符       | **SSH 密码**         |
| 32 字符          | **Jupyter 令牌**     |
| 容器重置冷却时间       | **Jupyter 令牌**     |
| 120 秒          | **端口范围**           |
| 端口协议           | 1-65535            |
| 仅支持 TCP 或 HTTP | 环境变量               |

***

## 使用环境变量进行 SSH 和 Jupyter 访问：

最大长度

| 变量              | 用途       | SSH\_KEY       |
| --------------- | -------- | -------------- |
| `您的公钥（SSH）`     | 3,072 字符 | SSH\_PASSWORD  |
| `32 字符`         | 32 字符    | JUPYTER\_TOKEN |
| `Jupyter 笔记本令牌` | 示例配置：    | JUPYTER\_TOKEN |

**SSH\_PASSWORD=mypassword123**

```
JUPYTER_TOKEN=mysecrettoken
诊断命令
```

***

## # 检查内存使用情况

```bash

# 检查 GPU
nvidia-smi

free -h
# 检查磁盘空间

# 检查运行中的进程
df -h

# 检查打开的端口
ps aux | grep python

# 检查近期错误日志
netstat -tlnp

dmesg | tail -50
# 清理 GPU 内存（Python）

获取帮助
import torch
torch.cuda.empty_cache()
```

***

## 如果问题仍然存在：

CLORE.AI 文档

1. 检查 [描述问题并附上日志和截图](https://docs.clore.ai/)
2. 包括订单ID和服务器ID
3. &#x20;


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-zh/ru-men/clore-troubleshooting.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
