Choisir À la demande (tarif fixe) ou Spot (prix d'enchère)
Configurez votre commande :
Sélectionner l'image Docker
Définir les ports (TCP pour SSH, HTTP pour les interfaces web)
Ajouter des variables d'environnement si nécessaire
Saisir la commande de démarrage
Sélectionner le paiement : CLORE, BTC, ou USDT/USDC
Créer la commande et attendre le déploiement
Accéder à votre serveur
Trouvez les détails de connexion dans Mes commandes
Interfaces web : utilisez l'URL du port HTTP
SSH : ssh -p <port> root@<adresse-proxy>
Qu'est-ce que LoRA/QLoRA ?
LoRA (Low-Rank Adaptation) - Entraînez de petites couches adapteurs au lieu du modèle complet
QLoRA - LoRA avec quantification pour encore moins de VRAM
Entraîner un modèle 7B sur une seule RTX 3090
Entraîner un modèle 70B sur une seule A100
Exigences
Modèle
Méthode
VRAM min
Recommandé
7B
QLoRA
12 Go
RTX 3090
13B
QLoRA
20 Go
RTX 4090
70B
QLoRA
48 Go
A100 80GB
7B
LoRA complet
24 Go
RTX 4090
Déploiement rapide
Image Docker :
Ports :
Commande :
Accéder à votre service
Après le déploiement, trouvez votre http_pub URL dans Mes commandes:
Aller à Mes commandes page
Cliquez sur votre commande
Trouvez le http_pub URL (par ex., abc123.clorecloud.net)
Utilisez https://VOTRE_HTTP_PUB_URL au lieu de localhost dans les exemples ci-dessous.
Préparation du jeu de données
Format Chat (recommandé)
Format Instruction
Format Alpaca
Modèles modernes pris en charge (2025)
Modèle
ID HF
VRAM min (QLoRA)
Llama 3.1 / 3.3 8B
meta-llama/Llama-3.1-8B-Instruct
12 Go
Qwen 2.5 7B / 14B
Qwen/Qwen2.5-7B-Instruct
12 Go / 20 Go
DeepSeek-R1-Distill (7B/8B)
deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
12 Go
Mistral 7B v0.3
mistralai/Mistral-7B-Instruct-v0.3
12 Go
Gemma 2 9B
google/gemma-2-9b-it
14 Go
Phi-4 14B
microsoft/phi-4
20 Go
Script de fine-tuning QLoRA
Exemple moderne avec PEFT 0.14+, Flash Attention 2, prise en charge de DoRA, et compatibilité Qwen2.5 / DeepSeek-R1 :
Flash Attention 2
Flash Attention 2 réduit l'utilisation de la VRAM et accélère significativement l'entraînement. Nécessite un GPU Ampere+ (RTX 3090, RTX 4090, A100).
Paramètre
VRAM (7B)
Vitesse
Attention standard (fp16)
~22 Go
référence
Flash Attention 2 (bf16)
~16 Go
+30%
Flash Attention 2 + QLoRA
~12 Go
+30%
DoRA (Weight-Decomposed LoRA)
DoRA (PEFT >= 0.14) décompose les poids pré-entraînés en composantes magnitude et direction. Il améliore la qualité du fine-tuning, en particulier pour les rangs plus faibles.
Exemples Qwen2.5 & DeepSeek-R1-Distill
Fine-tuning Qwen2.5
Fine-tuning DeepSeek-R1-Distill
Les modèles DeepSeek-R1-Distill (Qwen-7B, Qwen-14B, Llama-8B, Llama-70B) sont axés sur le raisonnement. Effectuez du fine-tuning pour adapter leur style de chaîne de pensée à votre domaine.
Utilisation d'Axolotl (plus simple)
Axolotl simplifie le fine-tuning avec des configs YAML :
Exemples de config Axolotl
Modèle de chat
Modèle code
Fusion des poids LoRA
Après l'entraînement, fusionnez LoRA dans le modèle de base :
Convertir en GGUF
Pour utilisation avec llama.cpp/Ollama :
Surveillance de l'entraînement
Weights & Biases
TensorBoard
Bonnes pratiques
Hyperparamètres
Paramètre
Modèle 7B
Modèle 13B
Modèle 70B
taille de batch
4
2
1
accum_grad
4
8
16
lr
2e-4
1e-4
5e-5
lora_r
64
32
16
époques
3
2-3
1-2
Taille du jeu de données
Minimum : 1 000 exemples
Bon : 10 000+ exemples
Qualité > Quantité
Éviter le surapprentissage
Entraînement multi-GPU
Config DeepSpeed :
Sauvegarde & export
Dépannage
Erreurs OOM
Réduire la taille de batch
Augmenter l'accumulation de gradients
Utilisez gradient_checkpointing=True
Réduire lora_r
La perte d'entraînement ne diminue pas
Vérifier le format des données
Augmenter le taux d'apprentissage
Vérifier les problèmes de données
Perte NaN
Réduire le taux d'apprentissage
Utiliser fp32 au lieu de fp16
Vérifier les données corrompues
Estimation des coûts
Tarifs typiques du marketplace CLORE.AI (à partir de 2024) :
GPU
Tarif horaire
Tarif journalier
Session de 4 heures
RTX 3060
~$0.03
~$0.70
~$0.12
RTX 3090
~$0.06
~$1.50
~$0.25
RTX 4090
~$0.10
~$2.30
~$0.40
A100 40GB
~$0.17
~$4.00
~$0.70
A100 80GB
~$0.25
~$6.00
~$1.00
Les prix varient selon le fournisseur et la demande. VérifiezPlace de marché CLORE.AIpour les tarifs actuels.
# Activer lors du chargement du modèle :
model = AutoModelForCausalLM.from_pretrained(
MODEL_NAME,
attn_implementation="flash_attention_2", # <-- ajouter ceci
torch_dtype=torch.bfloat16, # FA2 nécessite bf16 ou fp16
device_map="auto",
)
from peft import LoraConfig
# LoRA standard
lora_config = LoraConfig(r=64, lora_alpha=16, use_dora=False, ...)
# DoRA — mêmes paramètres, meilleure qualité
lora_config = LoraConfig(r=64, lora_alpha=16, use_dora=True, ...)
# Remarque : DoRA ajoute ~5-10 % de surcharge de VRAM par rapport à LoRA standard
# Remarque : Pas compatible avec les modèles quantifiés (4-bit/8-bit) dans tous les cas
MODEL_NAME = "Qwen/Qwen2.5-7B-Instruct"
# Pour 14B : "Qwen/Qwen2.5-14B-Instruct" (nécessite 20 Go+ de VRAM avec QLoRA)
model = AutoModelForCausalLM.from_pretrained(
MODEL_NAME,
quantization_config=bnb_config,
device_map="auto",
trust_remote_code=True, # Requis pour Qwen2.5
attn_implementation="flash_attention_2",
)
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)
# Qwen2.5 utilise le format ChatML — utiliser apply_chat_template
messages = [
{"role": "system", "content": "Vous êtes un assistant utile."},
{"role": "user", "content": "Bonjour !"},
{"role": "assistant", "content": "Salut ! Comment puis-je vous aider ?"},
]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=False)
# Variantes DeepSeek-R1-Distill
MODEL_NAME = "deepseek-ai/DeepSeek-R1-Distill-Qwen-7B" # 7B sur base Qwen2.5
# MODEL_NAME = "deepseek-ai/DeepSeek-R1-Distill-Llama-8B" # 8B sur base Llama3
# MODEL_NAME = "deepseek-ai/DeepSeek-R1-Distill-Qwen-14B" # 14B (nécessite A100)
model = AutoModelForCausalLM.from_pretrained(
MODEL_NAME,
quantization_config=bnb_config,
device_map="auto",
trust_remote_code=True,
attn_implementation="flash_attention_2",
)
# DeepSeek-R1 utilise des balises <think>...</think> pour le raisonnement
# Conserver cela dans les données d'entraînement pour préserver la capacité de chaîne de pensée
example_format = """<|im_start|>user
Résoudre : Quel est 15 * 23 ?<|im_end|>
<|im_start|>assistant
<think>
15 * 23 = 15 * 20 + 15 * 3 = 300 + 45 = 345
</think>
La réponse est 345.<|im_end|>"""
# Modules cibles LoRA pour DeepSeek-R1-Distill (base Qwen2.5)
lora_config = LoraConfig(
r=32,
lora_alpha=16,
target_modules=["q_proj", "k_proj", "v_proj", "o_proj",
"gate_proj", "up_proj", "down_proj"],
use_dora=True,
task_type="CAUSAL_LM",
)