Выберите По запросу (фиксированная ставка) или Спотовая (цена ставки)
Настройте ваш заказ:
Выберите Docker-образ
Установите порты (TCP для SSH, HTTP для веб-интерфейсов)
Добавьте переменные окружения при необходимости
Введите команду запуска
Выберите способ оплаты: CLORE, BTC, или USDT/USDC
Создайте заказ и дождитесь развертывания
Доступ к вашему серверу
Найдите данные для подключения в Мои заказы
Веб-интерфейсы: используйте URL HTTP-порта
SSH: ssh -p <port> root@<proxy-address>
Что такое LoRA/QLoRA?
LoRA (Low-Rank Adaptation) — обучайте небольшие адаптерные слои вместо всего моделя
QLoRA — LoRA с квантованием для ещё меньшего потребления VRAM
Обучение модели 7B на одной RTX 3090
Обучение модели 70B на одной A100
Требования
Модель
Метод
Мин. VRAM
Рекомендуется
7B
QLoRA
12ГБ
RTX 3090
13B
QLoRA
20ГБ
RTX 4090
70B
QLoRA
48ГБ
A100 80GB
7B
Полный LoRA
24ГБ
RTX 4090
Быстрое развертывание
Docker-образ:
Порты:
Команда:
Доступ к вашему сервису
После развертывания найдите ваш http_pub URL в Мои заказы:
Перейдите на Мои заказы страницу
Кликните по вашему заказу
Найдите http_pub URL (например, abc123.clorecloud.net)
Используйте https://YOUR_HTTP_PUB_URL вместо localhost в примерах ниже.
Подготовка набора данных
Формат чата (рекомендуется)
Формат инструкций
Формат Alpaca
Поддерживаемые современные модели (2025)
Модель
HF ID
Мин. VRAM (QLoRA)
Llama 3.1 / 3.3 8B
meta-llama/Llama-3.1-8B-Instruct
12ГБ
Qwen 2.5 7B / 14B
Qwen/Qwen2.5-7B-Instruct
12ГБ / 20ГБ
DeepSeek-R1-Distill (7B/8B)
deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
12ГБ
Mistral 7B v0.3
mistralai/Mistral-7B-Instruct-v0.3
12ГБ
Gemma 2 9B
google/gemma-2-9b-it
14ГБ
Phi-4 14B
microsoft/phi-4
20ГБ
Скрипт дообучения QLoRA
Современный пример с PEFT 0.14+, Flash Attention 2, поддержкой DoRA и совместимостью с Qwen2.5 / DeepSeek-R1:
Flash Attention 2
Flash Attention 2 значительно снижает использование VRAM и ускоряет обучение. Требует GPU Ampere+ (RTX 3090, RTX 4090, A100).
Настройка
VRAM (7B)
Скорость
Стандартное внимание (fp16)
~22ГБ
базовый уровень
Flash Attention 2 (bf16)
~16ГБ
+30%
Flash Attention 2 + QLoRA
~12ГБ
+30%
DoRA (Weight-Decomposed LoRA)
DoRA (PEFT >= 0.14) разлагает предварительно обученные веса на компоненты величины и направления. Это улучшает качество дообучения, особенно для меньших рангов.
Примеры Qwen2.5 & DeepSeek-R1-Distill
Дообучение Qwen2.5
Дообучение DeepSeek-R1-Distill
Модели DeepSeek-R1-Distill (Qwen-7B, Qwen-14B, Llama-8B, Llama-70B) ориентированы на рассуждение. Дообучите их, чтобы адаптировать стиль цепочек рассуждений к вашей доменной области.
Использование Axolotl (проще)
Axolotl упрощает дообучение с YAML-конфигами:
Примеры конфигураций Axolotl
Чат-модель
Модель для кода
Слияние весов LoRA
После обучения влейте LoRA обратно в базовую модель:
Конвертация в GGUF
Для использования с llama.cpp/Ollama:
Мониторинг обучения
Weights & Biases
TensorBoard
Лучшие практики
Гиперпараметры
Параметр
Модель 7B
Модель 13B
Модель 70B
batch_size
4
2
1
grad_accum
4
8
16
lr
2e-4
1e-4
5e-5
lora_r
64
32
16
epochs
3
2-3
1-2
Размер набора данных
Минимум: 1 000 примеров
Хорошо: 10 000+ примеров
Качество > Количество
Избегание переобучения
Обучение на нескольких GPU
Конфиг DeepSpeed:
Сохранение и экспорт
Устранение неполадок
Ошибки OOM
Уменьшите размер батча
Увеличьте накопление градиента
Используйте gradient_checkpointing=True
Уменьшите lora_r
Потеря при обучении не уменьшается
Проверьте формат данных
Увеличьте скорость обучения
Проверьте наличие проблем с данными
Потеря NaN
Уменьшите скорость обучения
Используйте fp32 вместо fp16
Проверьте данные на повреждения
Оценка стоимости
Типичные тарифы на рынке CLORE.AI (по состоянию на 2024 год):
GPU
Почасовая ставка
Дневная ставка
Сессия на 4 часа
RTX 3060
~$0.03
~$0.70
~$0.12
RTX 3090
~$0.06
~$1.50
~$0.25
RTX 4090
~$0.10
~$2.30
~$0.40
A100 40GB
~$0.17
~$4.00
~$0.70
A100 80GB
~$0.25
~$6.00
~$1.00
Цены зависят от провайдера и спроса. ПроверьтеCLORE.AI Marketplaceдля актуальных тарифов.
# Включить при загрузке модели:
model = AutoModelForCausalLM.from_pretrained(
MODEL_NAME,
attn_implementation="flash_attention_2", # <-- добавьте это
torch_dtype=torch.bfloat16, # FA2 требует bf16 или fp16
device_map="auto",
)
from peft import LoraConfig
# Стандартный LoRA
lora_config = LoraConfig(r=64, lora_alpha=16, use_dora=False, ...)
# DoRA — те же параметры, лучшее качество
lora_config = LoraConfig(r=64, lora_alpha=16, use_dora=True, ...)
# Примечание: DoRA добавляет примерно 5–10% оверхеда VRAM по сравнению со стандартным LoRA
# Примечание: Не во всех случаях совместимо с квантованными (4-бит/8-бит) моделями
MODEL_NAME = "Qwen/Qwen2.5-7B-Instruct"
# Для 14B: "Qwen/Qwen2.5-14B-Instruct" (требует 20ГБ+ VRAM с QLoRA)
model = AutoModelForCausalLM.from_pretrained(
MODEL_NAME,
quantization_config=bnb_config,
device_map="auto",
trust_remote_code=True, # Требуется для Qwen2.5
attn_implementation="flash_attention_2",
)
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)
# Qwen2.5 использует формат ChatML — используйте apply_chat_template
messages = [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello!"},
{"role": "assistant", "content": "Hi there! How can I help?"},
]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=False)
# Варианты DeepSeek-R1-Distill
MODEL_NAME = "deepseek-ai/DeepSeek-R1-Distill-Qwen-7B" # 7B на базе Qwen2.5
# MODEL_NAME = "deepseek-ai/DeepSeek-R1-Distill-Llama-8B" # 8B на базе Llama3
# MODEL_NAME = "deepseek-ai/DeepSeek-R1-Distill-Qwen-14B" # 14B (требует A100)
model = AutoModelForCausalLM.from_pretrained(
MODEL_NAME,
quantization_config=bnb_config,
device_map="auto",
trust_remote_code=True,
attn_implementation="flash_attention_2",
)
# DeepSeek-R1 использует теги <think>...</think> для рассуждений
# Сохраняйте это в обучающих данных, чтобы сохранить способность цепочек рассуждений
example_format = """<|im_start|>user
Solve: What is 15 * 23?<|im_end|>
<|im_start|>assistant
<think>
15 * 23 = 15 * 20 + 15 * 3 = 300 + 45 = 345
</think>
The answer is 345.<|im_end|>"""
# Целевые модули LoRA для DeepSeek-R1-Distill (на базе Qwen2.5)
lora_config = LoraConfig(
r=32,
lora_alpha=16,
target_modules=["q_proj", "k_proj", "v_proj", "o_proj",
"gate_proj", "up_proj", "down_proj"],
use_dora=True,
task_type="CAUSAL_LM",
)
# Сохранить адаптер LoRA
trainer.save_model("./lora_adapter")
# Сохранить слитую модель
merged_model.save_pretrained("./full_model")
# Загрузить на HuggingFace
huggingface-cli login
merged_model.push_to_hub("username/my-model")