Choisir À la demande (tarif fixe) ou Spot (prix d'enchère)
Configurez votre commande :
Sélectionnez l'image Docker
Définissez les ports (TCP pour SSH, HTTP pour les interfaces web)
Ajoutez des variables d'environnement si nécessaire
Entrez la commande de démarrage
Sélectionnez le paiement : CLORE, BTC, ou USDT/USDC
Créez la commande et attendez le déploiement
Accédez à votre serveur
Trouvez les détails de connexion dans Mes commandes
Interfaces Web : utilisez l'URL du port HTTP
SSH : ssh -p <port> root@<adresse-proxy>
Qu'est-ce que LoRA/QLoRA ?
LoRA (Adaptation de rang faible) - Entraînez de petites couches adaptatrices au lieu du modèle complet
QLoRA - LoRA avec quantification pour encore moins de VRAM
Entraîner un modèle 7B sur une seule RTX 3090
Entraîner un modèle 70B sur une seule A100
Exigences
Modèle
Méthode
VRAM min
Recommandé
7B
QLoRA
12Go
RTX 3090
13B
QLoRA
20Go
RTX 4090
70B
QLoRA
48Go
A100 80GB
7B
LoRA complet
24 Go
RTX 4090
Déploiement rapide
Image Docker :
Ports :
Commande :
Accéder à votre service
Après le déploiement, trouvez votre http_pub URL dans Mes commandes:
Aller à la Mes commandes page
Cliquez sur votre commande
Trouvez l' http_pub URL (par ex., abc123.clorecloud.net)
Utilisez https://VOTRE_HTTP_PUB_URL au lieu de localhost dans les exemples ci-dessous.
Préparation du jeu de données
Format de chat (recommandé)
Format d'instruction
Format Alpaca
Modèles modernes pris en charge (2025)
Modèle
ID HF
VRAM min (QLoRA)
Llama 3.1 / 3.3 8B
meta-llama/Llama-3.1-8B-Instruct
12Go
Qwen 2.5 7B / 14B
Qwen/Qwen2.5-7B-Instruct
12GB / 20GB
DeepSeek-R1-Distill (7B/8B)
deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
12Go
Mistral 7B v0.3
mistralai/Mistral-7B-Instruct-v0.3
12Go
Gemma 2 9B
google/gemma-2-9b-it
14GB
Phi-4 14B
microsoft/phi-4
20Go
Script d'ajustement fin QLoRA
Exemple moderne avec PEFT 0.14+, Flash Attention 2, prise en charge DoRA, et compatibilité Qwen2.5 / DeepSeek-R1 :
Flash Attention 2
Flash Attention 2 réduit l'utilisation de la VRAM et accélère significativement l'entraînement. Nécessite un GPU Ampere+ (RTX 3090, RTX 4090, A100).
Paramètre
VRAM (7B)
Vitesse
Attention standard (fp16)
~22GB
référence
Flash Attention 2 (bf16)
~16GB
+30%
Flash Attention 2 + QLoRA
~12GB
+30%
DoRA (LoRA décomposé par poids)
DoRA (PEFT >= 0.14) décompose les poids pré-entraînés en composantes magnitude et direction. Il améliore la qualité de l'ajustement fin, en particulier pour les rangs plus petits.
Exemples Qwen2.5 & DeepSeek-R1-Distill
Ajustement fin Qwen2.5
Ajustement fin DeepSeek-R1-Distill
Les modèles DeepSeek-R1-Distill (Qwen-7B, Qwen-14B, Llama-8B, Llama-70B) sont axés sur le raisonnement. Ajustez finement pour adapter leur style de chaîne de pensée à votre domaine.
Utilisation d'Axolotl (plus simple)
Axolotl simplifie l'ajustement fin avec des configurations YAML :
Exemples de configuration Axolotl
Modèle de chat
Modèle de code
Fusion des poids LoRA
Après l'entraînement, fusionnez LoRA dans le modèle de base :
Convertir en GGUF
Pour utilisation avec llama.cpp/Ollama :
Surveillance de l'entraînement
Weights & Biases
TensorBoard
Bonnes pratiques
Hyperparamètres
Paramètre
Modèle 7B
Modèle 13B
Modèle 70B
taille de lot
4
2
1
accum_grad
4
8
16
lr
2e-4
1e-4
5e-5
lora_r
64
32
16
époques
3
2-3
1-2
Taille du dataset
Minimum : 1 000 exemples
Bon : 10 000+ exemples
Qualité > Quantité
Éviter le surapprentissage
Entraînement multi-GPU
Configuration DeepSpeed :
Sauvegarde et exportation
Dépannage
Erreurs OOM
Réduire la taille de batch
Augmentez l'accumulation de gradients
Utilisez gradient_checkpointing=True
Réduire lora_r
La perte d'entraînement ne diminue pas
Vérifiez le format des données
Augmenter le taux d'apprentissage
Vérifiez les problèmes de données
Perte NaN
Réduire le taux d'apprentissage
Utiliser fp32 au lieu de fp16
Vérifiez la présence de données corrompues
Estimation des coûts
Tarifs typiques du marché CLORE.AI (à partir de 2024) :
GPU
Tarif horaire
Tarif journalier
Session de 4 heures
RTX 3060
~$0.03
~$0.70
~$0.12
RTX 3090
~$0.06
~$1.50
~$0.25
RTX 4090
~$0.10
~$2.30
~$0.40
A100 40GB
~$0.17
~$4.00
~$0.70
A100 80GB
~$0.25
~$6.00
~$1.00
Les prix varient selon le fournisseur et la demande. VérifiezCLORE.AI Marketplacepour les tarifs actuels.
Économisez de l'argent :
Utilisez Spot market pour les charges de travail flexibles (souvent 30-50 % moins cher)
# Activer lors du chargement du modèle :
model = AutoModelForCausalLM.from_pretrained(
MODEL_NAME,
attn_implementation="flash_attention_2", # <-- ajoutez ceci
torch_dtype=torch.bfloat16, # FA2 nécessite bf16 ou fp16
device_map="auto",
)
from peft import LoraConfig
# LoRA standard
lora_config = LoraConfig(r=64, lora_alpha=16, use_dora=False, ...)
# DoRA — mêmes paramètres, meilleure qualité
lora_config = LoraConfig(r=64, lora_alpha=16, use_dora=True, ...)
# Remarque : DoRA ajoute ~5-10% de surcharge VRAM par rapport à LoRA standard
# Remarque : Pas compatible avec les modèles quantifiés (4 bits/8 bits) dans tous les cas
MODEL_NAME = "Qwen/Qwen2.5-7B-Instruct"
# Pour 14B : "Qwen/Qwen2.5-14B-Instruct" (nécessite 20GB+ de VRAM avec QLoRA)
model = AutoModelForCausalLM.from_pretrained(
MODEL_NAME,
quantization_config=bnb_config,
device_map="auto",
trust_remote_code=True, # Requis pour Qwen2.5
attn_implementation="flash_attention_2",
)
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)
# Qwen2.5 utilise le format ChatML — utilisez apply_chat_template
messages = [
{"role": "system", "content": "Vous êtes un assistant serviable."},
{"role": "user", "content": "Bonjour !"},
{"role": "assistant", "content": "Salut ! Comment puis-je aider ?"},
]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=False)
# Variantes DeepSeek-R1-Distill
MODEL_NAME = "deepseek-ai/DeepSeek-R1-Distill-Qwen-7B" # 7B sur base Qwen2.5
# MODEL_NAME = "deepseek-ai/DeepSeek-R1-Distill-Llama-8B" # 8B sur base Llama3
# MODEL_NAME = "deepseek-ai/DeepSeek-R1-Distill-Qwen-14B" # 14B (nécessite A100)
model = AutoModelForCausalLM.from_pretrained(
MODEL_NAME,
quantization_config=bnb_config,
device_map="auto",
trust_remote_code=True,
attn_implementation="flash_attention_2",
)
# DeepSeek-R1 utilise des balises <think>...</think> pour le raisonnement
# Conservez cela dans les données d'entraînement pour préserver la capacité de chaîne de pensée
example_format = """<|im_start|>user
Solve: What is 15 * 23?<|im_end|>
<|im_start|>assistant
<think>
15 * 23 = 15 * 20 + 15 * 3 = 300 + 45 = 345
</think>
La réponse est 345.<|im_end|>"""
# Modules cibles LoRA pour DeepSeek-R1-Distill (base Qwen2.5)
lora_config = LoraConfig(
r=32,
lora_alpha=16,
target_modules=["q_proj", "k_proj", "v_proj", "o_proj",
"gate_proj", "up_proj", "down_proj"],
use_dora=True,
task_type="CAUSAL_LM",
)