Устранение неполадок

Распространённые проблемы и решения при аренде GPU на Clore.ai

Распространённые проблемы и решения при аренде GPU-серверов на маркетплейсе CLORE.AI.

circle-check
circle-info

Это руководство основано на технической документации платформы CLORE.AI.

Содержание


Проблемы при создании заказа

Заказ неудачен: «Недостаточно средств»

Причина: Недостаточно средств для покрытия платы за создание и минимального депозита.

Решение:

  • Проверьте ваш баланс в выбранной валюте (CLORE, BTC или USDT/USDC)

  • Плата за создание взимается при создании заказа

  • Пополните баланс на сумму, достаточную для нескольких часов аренды

Заказ неудачен: «Сервер недоступен»

Причина: Сервер уже арендован или офлайн.

Решение:

  • Обновите страницу маркетплейса

  • Проверьте состояние сервера (индикатор онлайн/оффлайн)

  • Для аренды Spot — вас могли перебить ставкой

Заказ застрял в статусе «Создаётся»

Причина: Контейнер разворачивается или произошла ошибка.

Решение:

  1. Подождите 2–5 минут (Docker-образ загружается)

  2. Проверьте логи в Моих заказах

  3. Большие образы (10 ГБ+) скачиваются дольше

  4. Если застряло более 10 минут — отмените и повторите попытку


Проблемы с подключением

Не удаётся подключиться по SSH

Причина: Порт не настроен или контейнер не готов.

Контрольный список:

  1. Порт 22 должен быть установлен как TCP (не HTTP)

  2. Статус контейнера должен быть Активен (не Создаётся)

  3. Используйте корректный сопоставленный порт из Моих заказах

Правильная команда SSH:

Где <MAPPED_PORT> — это публичный порт (например, 45678), НЕ порт 22.

SSH работает, но веб-интерфейс не открывается

Причина: Порт установлен как TCP вместо HTTP, или сервис не запущен.

Решение:

  1. Порты для веб-интерфейса должны быть установлены как HTTP (не TCP)

  2. Сервис должен слушать на 0.0.0.0, а не на localhost

  3. Проверьте логи — сервис мог упасть при запуске

Корректная настройка портов:

Ошибка «Connection refused»

Причина: Сервис внутри контейнера не запущен или слушает по неверному адресу.

Решение:

  1. Подключитесь по SSH к контейнеру и проверьте статус сервиса:

  2. Сервис должен слушать на 0.0.0.0, а не на 127.0.0.1:

Ошибка «Connection timed out»

Причина: Неверный адрес/порт или проблемы сети.

Контрольный список:

  1. Используйте адрес прокси из Моих заказах (не IP сервера!)

  2. Используйте сопоставленный порт (публичный порт, не порт контейнера)

  3. Используйте корректный протокол (http:// для HTTP-портов)


Проблемы с контейнером

Контейнер постоянно перезапускается

Причина: Ошибка в команде запуска или недостаточно ресурсов.

Решение:

  1. Проверьте логи в Моих заказах

  2. Упростите команду запуска:

  3. Затем подключитесь по SSH и настройте вручную

Невозможно сбросить контейнер

Причина: Период ожидания между сбросами.

Факт: Сброс контейнера имеет 120 секунд период ожидания.

Решение: Ждите 2 минуты между попытками сброса.

Данные потеряны после перезапуска

Причина: Данные не находятся в постоянном хранилище.

Важно:

  • Данные внутри контейнера сохраняются при сбросе контейнера

  • Данные теряются когда заказ отменён или истёк

  • Всегда скачивайте результаты перед завершением аренды:

Команда запуска не выполняется

Причина: Синтаксическая ошибка или проблема с образом.

Типичные ошибки:

Решение:

  1. Используйте простой запуск: bash или sleep infinity

  2. Настройте всё через SSH

  3. Или создайте кастомный Docker-образ с предустановленным ПО


Проблемы с GPU

GPU не виден в контейнере

Проверьте:

Если команда не найдена:

  • Docker-образ должен поддерживать CUDA

  • Используйте образы с поддержкой CUDA: pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime

Если GPU не отображается:

  • Проверьте, есть ли у сервера GPU (проверьте объявление на маркетплейсе)

  • Свяжитесь с провайдером сервера

Несоответствие версии CUDA

Ошибка: Версия драйвера CUDA недостаточна для версии среды выполнения CUDA

Причина: Версия CUDA в образе несовместима с драйвером сервера.

Решение:

  • Проверьте версию драйвера: nvidia-smi (в правом верхнем углу)

  • Используйте образ с совместимой версией CUDA

  • Безопасный выбор: CUDA 11.8, CUDA 12.1

Закончилась память GPU

Ошибка: CUDA — недостаточно памяти

Решения:

  1. Используйте меньшую модель или квантизацию

  2. Добавьте флаги оптимизации памяти:

    • Stable Diffusion: --medvram или --lowvram

    • LLM: load_in_4bit=True или load_in_8bit=True

  3. Очистите память: torch.cuda.empty_cache()

  4. Арендуйте сервер с большим объёмом VRAM


Проблемы с оплатой

Поддерживаемые валюты

CLORE.AI поддерживает три валюты:

  • CLORE - собственный токен платформы

  • BTC - Биткойн

  • USD - стейблкоины (если включены провайдером)

Заказ отменён: «Перебит»

Причина: Кто-то предложил более высокую цену на рынке Spot.

Решение:

  • Используйте On-Demand для гарантированной аренды

  • Или увеличьте вашу ставку на Spot

Баланс списан, но заказ не создан

Причина: Плата за создание списывается даже если заказ не создаётся.

Решение:

  • Плата за создание обычно минимальна

  • Проверьте причину отмены в истории

  • Свяжитесь со службой поддержки при повторяющихся проблемах


Ограничения платформы

Проверено в кодовой базе CLORE.AI:

Параметр
Ограничение

Порты на заказ

5

Всего переменных окружения

12 288 символов (12 КБ)

Имя одной переменной окружения

128 символов

Значение одной переменной окружения

1 536 символов

SSH-ключ

3 072 символа

SSH-пароль

32 символа

Jupyter-токен

32 символа

Время ожидания между сбросами контейнера

120 секунд

Диапазон портов

1-65535

Протоколы портов

Только TCP или HTTP


Переменные окружения

Используйте переменные окружения для доступа по SSH и Jupyter:

Переменная
Назначение
Максимальная длина

SSH_KEY

Ваш публичный SSH-ключ

3 072 символа

SSH_PASSWORD

SSH-пароль

32 символа

JUPYTER_TOKEN

Токен Jupyter Notebook

32 символа

Пример конфигурации:


Диагностические команды


Получение помощи

Если проблема сохраняется:

  1. Опишите проблему, приложив логи и скриншоты

  2. Укажите ID заказа и ID сервера

Последнее обновление

Это было полезно?