LLaMA-Factory

Fine-tuner plus de 100 LLMs avec LoRA/QLoRA et une interface web sur les GPU Clore.ai en utilisant LLaMA-Factory

LLaMA-Factory est le cadre de fine-tuning open-source le plus complet, prenant en charge plus de 100 modèles de langue, y compris toutes les variantes de LLaMA, Qwen, Mistral, Phi, Falcon, ChatGLM, et plus encore. Il propose LoRA, QLoRA, fine-tuning complet, RLHF, DPO et PPO — le tout via une interface web intuitive (LLaMA Board) ou une CLI. Les serveurs GPU à la demande de CLORE.AI en font la plateforme idéale pour lancer des tâches de fine-tuning à une fraction du coût des fournisseurs cloud.

circle-check

Exigences serveur

Paramètre
Minimum
Recommandé

RAM

16 Go

32 Go+

VRAM

8 Go (QLoRA)

24 Go+

Disque

50 Go

200 Go+

GPU

NVIDIA RTX 2080+

A100, RTX 4090

circle-info

La méthode d'entraînement détermine les exigences GPU :

  • QLoRA (4 bits): 8 Go de VRAM pour les modèles 7B, 16 Go pour les 13B

  • LoRA (float16): 16 Go de VRAM pour les modèles 7B, 40 Go pour les 13B

  • Fine-tuning complet: ~14 Go de VRAM par paramètre 7B (+ états de l'optimiseur)

  • Multi-GPU (DeepSpeed/FSDP) s'étend sur n'importe quel nombre de GPU

Déploiement rapide sur CLORE.AI

Image Docker : hiyouga/llamafactory:latest

Ports : 22/tcp, 7860/http

Variables d’environnement :

Variable
Exemple
Description

HF_TOKEN

hf_xxx...

Jeton HuggingFace pour les modèles protégés

WANDB_API_KEY

xxx...

Weights & Biases pour le suivi des expériences

CUDA_VISIBLE_DEVICES

0,1

GPUs à utiliser

Configuration étape par étape

1. Louez un serveur GPU sur CLORE.AI

Visitez CLORE.AI Marketplacearrow-up-right et sélectionnez en fonction de votre tâche :

Tâche
VRAM
GPU recommandé

QLoRA 7B

8 Go

RTX 3070/2080

QLoRA 13B

16 Go

RTX 3090/A4000

LoRA 7B

16 Go

RTX 3090/A4000

LoRA 13B

40 Go

A6000/A100 40GB

FT complet 7B

80 Go

A100 80GB

Multi-GPU

Variable

2-8× n'importe quel GPU

2. SSH sur votre serveur

3. Créer les répertoires de travail

4. Récupérer l'image Docker

5. Lancer LLaMA-Factory

Lancer avec l'interface Web (LLaMA Board) :

Avec le suivi Weights & Biases :

Multi-GPU avec DeepSpeed (4 GPUs) :

6. Accéder à l'interface Web

Vérifiez les logs et obtenez l'URL :

Votre URL http_pub CLORE.AI pour le port 7860 :


Exemples d’utilisation

Exemple 1 : Fine-tuning LoRA via l'interface Web (LLaMA Board)

  1. Ouvrez LLaMA Board à votre URL CLORE.AI

  2. Allez à l'onglet Train onglet

  3. Configurer :

    • Nom du modèle: LLaMA-3Meta-Llama-3-8B-Instruct

    • Phase d'entraînement: Fine-tuning supervisé

    • Jeu de données: Sélectionnez votre jeu de données (ou téléchargez un personnalisé)

    • Méthode de fine-tuning: lora

    • Rang LoRA: 8 (plus élevé = plus de paramètres entraînés)

    • Taux d'apprentissage: 1e-4

    • Époques: 3

    • Répertoire de sortie: llama3-finetuned

  4. Cliquez Démarrer pour commencer l'entraînement

  5. Surveillez les courbes de perte dans le Loss graphique

Exemple 2 : Fine-tuning QLoRA via la CLI

Préparez un fichier de configuration YAML d'entraînement :

Exemple 3 : Téléverser un jeu de données personnalisé

Créez un jeu de données personnalisé au format Alpaca :

Puis sélectionnez my_dataset dans le menu déroulant Dataset de LLaMA Board.

Exemple 4 : DPO (Direct Preference Optimization)

Exemple 5 : Inférence avec un modèle fine-tuné

Après l'entraînement, testez votre modèle :

Ou exportez le modèle fusionné :


Configuration

Paramètres clés d'entraînement

Paramètre
Valeur typique
Description

lora_rank

8–64

Rang LoRA (plus élevé = plus expressif)

lora_alpha

2× rang

Mise à l'échelle alpha LoRA

lora_dropout

0.0–0.1

Dropout pour les couches LoRA

lora_target

all

Quelles couches appliquer LoRA

learning_rate

1e-4

Taux d'apprentissage de départ

num_train_epochs

1–5

Époques d'entraînement

per_device_train_batch_size

1–4

Taille de batch par GPU

gradient_accumulation_steps

4–16

Multiplicateur effectif de batch

cutoff_len

1024–4096

Longueur maximale de séquence

quantization_bit

4 ou 8

Bits de quantification QLoRA

warmup_ratio

0.05–0.1

Fraction d'échauffement du LR

lr_scheduler_type

cosine

Planning du LR

Méthodes de fine-tuning prises en charge

Méthode
Utilisation de la mémoire
Qualité
Quand l'utiliser

full

Très élevé

Meilleur

VRAM illimitée

freeze

Moyen

Bonne

Geler les couches de base

lora

Faible

Très bonne

Choix par défaut

qlora (lora+quant)

Le plus bas

Bonne

VRAM limitée

Entraînement Multi-GPU DeepSpeed

Pour l'entraînement sur plusieurs GPU, lancez avec torchrun:


Conseils de performance

1. Paramètres QLoRA optimaux par GPU

8 Go VRAM (RTX 3070) :

24 Go VRAM (RTX 3090/4090) :

80 Go VRAM (A100) :

2. Flash Attention 2 pour des contextes plus longs

Cela permet d'entraîner avec des séquences 2× plus longues sur la même VRAM.

3. Gradient Checkpointing

Économise de la VRAM au prix d'un entraînement ~20% plus lent :

4. Choisir la bonne cible LoRA

5. Geler les couches supérieures pour une adaptation rapide

Beaucoup plus rapide que LoRA complet pour l'adaptation à des tâches simples.

6. Surveiller avec TensorBoard

Ajoutez le port 6006 à votre commande CLORE.AI pour accéder à TensorBoard.


Dépannage

Problème : "CUDA out of memory" pendant l'entraînement

  1. Réduire la taille du batch : per_device_train_batch_size: 1

  2. Activer le gradient checkpointing : gradient_checkpointing: true

  3. Réduire la longueur de contexte : cutoff_len: 512

  4. Utiliser QLoRA (4 bits) : quantization_bit: 4

  5. Réduire le rang LoRA : lora_rank: 4

Problème : La perte d'entraînement ne diminue pas

  • Vérifiez le taux d'apprentissage — essayez 5e-5 ou 2e-4

  • Vérifiez que le format du jeu de données correspond au template

  • Augmenter lora_rank (8→16→32)

  • Vérifiez que lora_target: all est défini

Problème : Vitesse d'entraînement lente

Si le GPU est utilisé à < 80% :

  • Augmentez la taille du batch

  • Utilisez Flash Attention : flash_attn: fa2

  • Supprimez gradient_checkpointing si la VRAM le permet

Problème : Modèle introuvable dans l'interface Web

Puis actualisez la liste des modèles dans LLaMA Board.

Problème : Erreurs de format du jeu de données

Tous les formats de jeu de données doivent correspondre dataset_info.json spécification :

Problème : Port WebUI inaccessible

Assurez-vous que LLaMA-Factory a démarré le serveur Gradio :

Ajouter --share option pour une URL Gradio publique en alternative.


Liens


Recommandations GPU Clore.ai

Cas d’utilisation
GPU recommandé
Coût estimé sur Clore.ai

Développement/Test

RTX 3090 (24GB)

~$0.12/gpu/hr

Fine-tuning (7B–13B)

RTX 4090 (24GB)

~$0.70/gpu/hr

Grands modèles (70B+)

A100 80GB

~$1.20/gpu/hr

Entraînement Multi-GPU

2-4x A100 80GB

~2,40–4,80 $/heure

💡 Tous les exemples de ce guide peuvent être déployés sur Clore.aiarrow-up-right serveurs GPU. Parcourez les GPU disponibles et louez à l’heure — sans engagement, avec accès root complet.

Mis à jour

Ce contenu vous a-t-il été utile ?