Affiner LLM

Fine-tuner des LLMs personnalisés avec des techniques efficaces sur les GPU Clore.ai

Entraînez votre propre LLM personnalisé en utilisant des techniques de fine-tuning efficaces sur les GPU de CLORE.AI.

circle-check

Location sur CLORE.AI

  1. Filtrer par type de GPU, VRAM et prix

  2. Choisir À la demande (tarif fixe) ou Spot (prix d'enchère)

  3. Configurez votre commande :

    • Sélectionner l'image Docker

    • Définir les ports (TCP pour SSH, HTTP pour les interfaces web)

    • Ajouter des variables d'environnement si nécessaire

    • Saisir la commande de démarrage

  4. Sélectionner le paiement : CLORE, BTC, ou USDT/USDC

  5. Créer la commande et attendre le déploiement

Accéder à votre serveur

  • Trouvez les détails de connexion dans Mes commandes

  • Interfaces web : utilisez l'URL du port HTTP

  • SSH : ssh -p <port> root@<adresse-proxy>

Qu'est-ce que LoRA/QLoRA ?

  • LoRA (Low-Rank Adaptation) - Entraînez de petites couches adapteurs au lieu du modèle complet

  • QLoRA - LoRA avec quantification pour encore moins de VRAM

  • Entraîner un modèle 7B sur une seule RTX 3090

  • Entraîner un modèle 70B sur une seule A100

Exigences

Modèle
Méthode
VRAM min
Recommandé

7B

QLoRA

12 Go

RTX 3090

13B

QLoRA

20 Go

RTX 4090

70B

QLoRA

48 Go

A100 80GB

7B

LoRA complet

24 Go

RTX 4090

Déploiement rapide

Image Docker :

Ports :

Commande :

Accéder à votre service

Après le déploiement, trouvez votre http_pub URL dans Mes commandes:

  1. Aller à Mes commandes page

  2. Cliquez sur votre commande

  3. Trouvez le http_pub URL (par ex., abc123.clorecloud.net)

Utilisez https://VOTRE_HTTP_PUB_URL au lieu de localhost dans les exemples ci-dessous.

Préparation du jeu de données

Format Chat (recommandé)

Format Instruction

Format Alpaca

Modèles modernes pris en charge (2025)

Modèle
ID HF
VRAM min (QLoRA)

Llama 3.1 / 3.3 8B

meta-llama/Llama-3.1-8B-Instruct

12 Go

Qwen 2.5 7B / 14B

Qwen/Qwen2.5-7B-Instruct

12 Go / 20 Go

DeepSeek-R1-Distill (7B/8B)

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

12 Go

Mistral 7B v0.3

mistralai/Mistral-7B-Instruct-v0.3

12 Go

Gemma 2 9B

google/gemma-2-9b-it

14 Go

Phi-4 14B

microsoft/phi-4

20 Go

Script de fine-tuning QLoRA

Exemple moderne avec PEFT 0.14+, Flash Attention 2, prise en charge de DoRA, et compatibilité Qwen2.5 / DeepSeek-R1 :

Flash Attention 2

Flash Attention 2 réduit l'utilisation de la VRAM et accélère significativement l'entraînement. Nécessite un GPU Ampere+ (RTX 3090, RTX 4090, A100).

Paramètre
VRAM (7B)
Vitesse

Attention standard (fp16)

~22 Go

référence

Flash Attention 2 (bf16)

~16 Go

+30%

Flash Attention 2 + QLoRA

~12 Go

+30%

DoRA (Weight-Decomposed LoRA)

DoRA (PEFT >= 0.14) décompose les poids pré-entraînés en composantes magnitude et direction. Il améliore la qualité du fine-tuning, en particulier pour les rangs plus faibles.

Exemples Qwen2.5 & DeepSeek-R1-Distill

Fine-tuning Qwen2.5

Fine-tuning DeepSeek-R1-Distill

Les modèles DeepSeek-R1-Distill (Qwen-7B, Qwen-14B, Llama-8B, Llama-70B) sont axés sur le raisonnement. Effectuez du fine-tuning pour adapter leur style de chaîne de pensée à votre domaine.

Utilisation d'Axolotl (plus simple)

Axolotl simplifie le fine-tuning avec des configs YAML :

Exemples de config Axolotl

Modèle de chat

Modèle code

Fusion des poids LoRA

Après l'entraînement, fusionnez LoRA dans le modèle de base :

Convertir en GGUF

Pour utilisation avec llama.cpp/Ollama :

Surveillance de l'entraînement

Weights & Biases

TensorBoard

Bonnes pratiques

Hyperparamètres

Paramètre
Modèle 7B
Modèle 13B
Modèle 70B

taille de batch

4

2

1

accum_grad

4

8

16

lr

2e-4

1e-4

5e-5

lora_r

64

32

16

époques

3

2-3

1-2

Taille du jeu de données

  • Minimum : 1 000 exemples

  • Bon : 10 000+ exemples

  • Qualité > Quantité

Éviter le surapprentissage

Entraînement multi-GPU

Config DeepSpeed :

Sauvegarde & export

Dépannage

Erreurs OOM

  • Réduire la taille de batch

  • Augmenter l'accumulation de gradients

  • Utilisez gradient_checkpointing=True

  • Réduire lora_r

La perte d'entraînement ne diminue pas

  • Vérifier le format des données

  • Augmenter le taux d'apprentissage

  • Vérifier les problèmes de données

Perte NaN

  • Réduire le taux d'apprentissage

  • Utiliser fp32 au lieu de fp16

  • Vérifier les données corrompues

Estimation des coûts

Tarifs typiques du marketplace CLORE.AI (à partir de 2024) :

GPU
Tarif horaire
Tarif journalier
Session de 4 heures

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Les prix varient selon le fournisseur et la demande. Vérifiez Place de marché CLORE.AIarrow-up-right pour les tarifs actuels.

📚 Voir aussi : Comment affiner LLaMA 3 sur un GPU cloud — Guide étape par étapearrow-up-right

Économisez de l'argent :

  • Utilisez Spot marché pour charges de travail flexibles (souvent 30-50% moins cher)

  • Payer avec CLORE jetons

  • Comparer les prix entre différents fournisseurs

Mis à jour

Ce contenu vous a-t-il été utile ?