Docker 故障

问题 Clore.ai 将矿机标记为 Docker 故障 并将其保持离线,即使 HiveOS 正在运行。

症状

  • 在 Clore 面板中显示“Docker 故障”图标。

  • 我的服务器 部分,GPU 显示为 0x 未知 或 GPU 数量不断变化。


原因 1:GPU 或 Riser 不稳定

如果 GPU 断开或不稳定,Clore 无法初始化该 GPU。 即使 HiveOS 能检测到 GPU,Clore 也无法使用它 → Docker 故障.

解决方案:重启并检查硬件

  1. 检查 GPU 或 riser,确保所有连接牢固。

  2. 重启矿机:

reboot

如果重启后错误再次出现,问题很可能出在 GPU、主板或 riser。


原因 2:Python 环境(Miniconda)损坏

如果目录 /opt/clore-hosting/miniconda-env 被损坏,Clore 在启动时会挂起。

解决方案:删除环境并重启

sudo systemctl stop clore-hosting.service
sudo rm -rf /opt/clore-hosting/miniconda-env
sudo systemctl start clore-hosting.service

原因 3:依赖项安装被卡住

如果 Clore 无法启动,可能是由于依赖项安装被冻结(例如 aiofiles、docker 等)。

解决方案:重新安装依赖项

sudo /opt/clore-hosting/clore.sh --reinstall

原因 4:安装了不稳定的 Docker 版本(例如 28.*)

推荐版本: 27.5.1 Docker 28+ 经常发生崩溃。

解决方案:降级 Docker

sudo apt install \
docker-ce=5:27.5.1-1~ubuntu.22.04~jammy \
docker-ce-cli=5:27.5.1-1~ubuntu.22.04~jammy \
containerd.io -y

原因 5:启动时未启用必需的服务

重启后,系统未启动 Docker 和 Clore Hosting → 服务器离线。

解决方案:在启动时启用服务

sudo systemctl enable clore-hosting.service
sudo systemctl enable docker.service
sudo systemctl enable docker.socket

原因 6:驱动未检测到 GPU(nvidia-smi → 未发现设备)

如果 HiveOS 无法检测到 GPU,Clore 无法使用它 → 导致 Docker 故障。

解决方案:重新安装驱动

nvidia-driver-update --force

如果问题仍然存在 —— 从 Clore 中完全移除服务器,修改令牌,然后重新添加。

如果内部配置损坏,这通常会有帮助。


Docker 故障 几乎总是意味着 Clore 看不到该 GPU。 在 90% 的情况下,原因要么是服务被禁用,要么是 GPU/risers 不稳定。 修复根本问题,在启动时启用服务——你的矿机就会保持在线。

最后更新于

这有帮助吗?