Affiner un LLM

Affinez des LLM personnalisés avec des techniques efficaces sur les GPU Clore.ai

Entraînez votre propre LLM personnalisé en utilisant des techniques d'ajustement fin efficaces sur les GPU CLORE.AI.

circle-check

Location sur CLORE.AI

  1. Filtrer par type de GPU, VRAM et prix

  2. Choisir À la demande (tarif fixe) ou Spot (prix d'enchère)

  3. Configurez votre commande :

    • Sélectionnez l'image Docker

    • Définissez les ports (TCP pour SSH, HTTP pour les interfaces web)

    • Ajoutez des variables d'environnement si nécessaire

    • Entrez la commande de démarrage

  4. Sélectionnez le paiement : CLORE, BTC, ou USDT/USDC

  5. Créez la commande et attendez le déploiement

Accédez à votre serveur

  • Trouvez les détails de connexion dans Mes commandes

  • Interfaces Web : utilisez l'URL du port HTTP

  • SSH : ssh -p <port> root@<adresse-proxy>

Qu'est-ce que LoRA/QLoRA ?

  • LoRA (Adaptation de rang faible) - Entraînez de petites couches adaptatrices au lieu du modèle complet

  • QLoRA - LoRA avec quantification pour encore moins de VRAM

  • Entraîner un modèle 7B sur une seule RTX 3090

  • Entraîner un modèle 70B sur une seule A100

Exigences

Modèle
Méthode
VRAM min
Recommandé

7B

QLoRA

12Go

RTX 3090

13B

QLoRA

20Go

RTX 4090

70B

QLoRA

48Go

A100 80GB

7B

LoRA complet

24 Go

RTX 4090

Déploiement rapide

Image Docker :

Ports :

Commande :

Accéder à votre service

Après le déploiement, trouvez votre http_pub URL dans Mes commandes:

  1. Aller à la Mes commandes page

  2. Cliquez sur votre commande

  3. Trouvez l' http_pub URL (par ex., abc123.clorecloud.net)

Utilisez https://VOTRE_HTTP_PUB_URL au lieu de localhost dans les exemples ci-dessous.

Préparation du jeu de données

Format de chat (recommandé)

Format d'instruction

Format Alpaca

Modèles modernes pris en charge (2025)

Modèle
ID HF
VRAM min (QLoRA)

Llama 3.1 / 3.3 8B

meta-llama/Llama-3.1-8B-Instruct

12Go

Qwen 2.5 7B / 14B

Qwen/Qwen2.5-7B-Instruct

12GB / 20GB

DeepSeek-R1-Distill (7B/8B)

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

12Go

Mistral 7B v0.3

mistralai/Mistral-7B-Instruct-v0.3

12Go

Gemma 2 9B

google/gemma-2-9b-it

14GB

Phi-4 14B

microsoft/phi-4

20Go

Script d'ajustement fin QLoRA

Exemple moderne avec PEFT 0.14+, Flash Attention 2, prise en charge DoRA, et compatibilité Qwen2.5 / DeepSeek-R1 :

Flash Attention 2

Flash Attention 2 réduit l'utilisation de la VRAM et accélère significativement l'entraînement. Nécessite un GPU Ampere+ (RTX 3090, RTX 4090, A100).

Paramètre
VRAM (7B)
Vitesse

Attention standard (fp16)

~22GB

référence

Flash Attention 2 (bf16)

~16GB

+30%

Flash Attention 2 + QLoRA

~12GB

+30%

DoRA (LoRA décomposé par poids)

DoRA (PEFT >= 0.14) décompose les poids pré-entraînés en composantes magnitude et direction. Il améliore la qualité de l'ajustement fin, en particulier pour les rangs plus petits.

Exemples Qwen2.5 & DeepSeek-R1-Distill

Ajustement fin Qwen2.5

Ajustement fin DeepSeek-R1-Distill

Les modèles DeepSeek-R1-Distill (Qwen-7B, Qwen-14B, Llama-8B, Llama-70B) sont axés sur le raisonnement. Ajustez finement pour adapter leur style de chaîne de pensée à votre domaine.

Utilisation d'Axolotl (plus simple)

Axolotl simplifie l'ajustement fin avec des configurations YAML :

Exemples de configuration Axolotl

Modèle de chat

Modèle de code

Fusion des poids LoRA

Après l'entraînement, fusionnez LoRA dans le modèle de base :

Convertir en GGUF

Pour utilisation avec llama.cpp/Ollama :

Surveillance de l'entraînement

Weights & Biases

TensorBoard

Bonnes pratiques

Hyperparamètres

Paramètre
Modèle 7B
Modèle 13B
Modèle 70B

taille de lot

4

2

1

accum_grad

4

8

16

lr

2e-4

1e-4

5e-5

lora_r

64

32

16

époques

3

2-3

1-2

Taille du dataset

  • Minimum : 1 000 exemples

  • Bon : 10 000+ exemples

  • Qualité > Quantité

Éviter le surapprentissage

Entraînement multi-GPU

Configuration DeepSpeed :

Sauvegarde et exportation

Dépannage

Erreurs OOM

  • Réduire la taille de batch

  • Augmentez l'accumulation de gradients

  • Utilisez gradient_checkpointing=True

  • Réduire lora_r

La perte d'entraînement ne diminue pas

  • Vérifiez le format des données

  • Augmenter le taux d'apprentissage

  • Vérifiez les problèmes de données

Perte NaN

  • Réduire le taux d'apprentissage

  • Utiliser fp32 au lieu de fp16

  • Vérifiez la présence de données corrompues

Estimation des coûts

Tarifs typiques du marché CLORE.AI (à partir de 2024) :

GPU
Tarif horaire
Tarif journalier
Session de 4 heures

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Les prix varient selon le fournisseur et la demande. Vérifiez CLORE.AI Marketplacearrow-up-right pour les tarifs actuels.

Économisez de l'argent :

  • Utilisez Spot market pour les charges de travail flexibles (souvent 30-50 % moins cher)

  • Payer avec CLORE jetons

  • Comparer les prix entre différents fournisseurs

Mis à jour

Ce contenu vous a-t-il été utile ?