LLaMA-Factory

100+ LLMs mit LoRA/QLoRA und einer Web‑UI auf Clore.ai‑GPUs mit LLaMA‑Factory feinabstimmen

LLaMA-Factory ist das umfangreichste Open-Source-Fine-Tuning-Framework und unterstützt über 100 Sprachmodelle, einschließlich aller LLaMA-Varianten, Qwen, Mistral, Phi, Falcon, ChatGLM und mehr. Es bietet LoRA, QLoRA, vollständiges Fine-Tuning, RLHF, DPO und PPO — alles über eine intuitive Weboberfläche (LLaMA Board) oder die CLI. Die On-Demand-GPU-Server von CLORE.AI machen es zur perfekten Plattform, um Fine-Tuning-Jobs zu starten, und das zu einem Bruchteil der Kosten von Cloud-Anbietern.

circle-check

Serveranforderungen

Parameter
Minimum
Empfohlen

RAM

16 GB

32 GB+

VRAM

8 GB (QLoRA)

24 GB+

Festplatte

50 GB

200 GB+

GPU

NVIDIA RTX 2080+

A100, RTX 4090

circle-info

Die Trainingsmethode bestimmt die GPU-Anforderungen:

  • QLoRA (4-bit): 8 GB VRAM für 7B-Modelle, 16 GB für 13B

  • LoRA (float16): 16 GB VRAM für 7B-Modelle, 40 GB für 13B

  • Vollständiges Fine-Tuning: ~14 GB VRAM pro 7B-Parameter (+ Optimizer-Zustände)

  • Multi-GPU (DeepSpeed/FSDP) skaliert über beliebig viele GPUs

Schnelle Bereitstellung auf CLORE.AI

Docker-Image: hiyouga/llamafactory:latest

Ports: 22/tcp, 7860/http

Umgebungsvariablen:

Variable
Beispiel
Beschreibung

HF_TOKEN

hf_xxx...

HuggingFace-Token für gesperrte Modelle

WANDB_API_KEY

xxx...

Weights & Biases für Experiment-Tracking

CUDA_VISIBLE_DEVICES

0,1

Zu verwendende GPUs

Schritt-für-Schritt-Einrichtung

1. Mieten Sie einen GPU-Server auf CLORE.AI

Besuchen Sie CLORE.AI Marketplacearrow-up-right und wählen Sie basierend auf Ihrer Aufgabe:

Aufgabe
VRAM
Empfohlene GPU

QLoRA 7B

8 GB

RTX 3070/2080

QLoRA 13B

16 GB

RTX 3090/A4000

LoRA 7B

16 GB

RTX 3090/A4000

LoRA 13B

40 GB

A6000/A100 40GB

Full FT 7B

80 GB

A100 80GB

Multi-GPU

Variiert

2–8× beliebige GPU

2. SSH auf Ihren Server

3. Arbeitsverzeichnisse erstellen

4. Docker-Image ziehen

5. LLaMA-Factory starten

Starten mit Web-UI (LLaMA Board):

Mit Weights & Biases-Tracking:

Multi-GPU mit DeepSpeed (4 GPUs):

6. Auf die Weboberfläche zugreifen

Logs prüfen und die URL abrufen:

Ihre CLORE.AI http_pub-URL für Port 7860:


Beispielanwendungen

Beispiel 1: LoRA-Fine-Tuning über Web-UI (LLaMA Board)

  1. Öffnen Sie das LLaMA Board unter Ihrer CLORE.AI-URL

  2. Gehen Sie zu Train Tab

  3. Konfigurieren:

    • Modellname: LLaMA-3Meta-Llama-3-8B-Instruct

    • Trainingsphase: Supervised Fine-Tuning

    • Datensatz: Wählen Sie Ihren Datensatz (oder laden Sie einen eigenen hoch)

    • Fine-Tuning-Methode: lora

    • LoRA-Rang: 8 (höher = mehr trainierte Parameter)

    • Lernrate: 1e-4

    • Epochen: 3

    • Ausgabeverzeichnis: llama3-finetuned

  4. Klicken Sie Start um das Training zu beginnen

  5. Überwachen Sie Loss-Kurven im Loss Diagramm

Beispiel 2: CLI-basiertes QLoRA-Fine-Tuning

Bereiten Sie eine Trainingskonfigurations-YAML vor:

Beispiel 3: Eigenen Datensatz hochladen

Erstellen Sie einen eigenen Datensatz im Alpaca-Format:

Wählen Sie dann my_dataset im Dataset-Dropdown des LLaMA Boards.

Beispiel 4: DPO (Direct Preference Optimization)

Beispiel 5: Inferenz mit dem feinabgestimmten Modell

Testen Sie Ihr Modell nach dem Training:

Oder exportieren Sie das gemergte Modell:


Konfiguration

Wichtige Trainingsparameter

Parameter
Typischer Wert
Beschreibung

lora_rank

8–64

LoRA-Rang (höher = ausdrucksstärker)

lora_alpha

2× Rang

LoRA-Alpha-Skalierung

lora_dropout

0.0–0.1

Dropout für LoRA-Schichten

lora_target

all

Auf welche Schichten LoRA angewendet wird

learning_rate

1e-4

Anfangslernrate

num_train_epochs

1–5

Trainings-Epochen

per_device_train_batch_size

1–4

Batch-Größe pro GPU

gradient_accumulation_steps

4–16

Effektiver Batch-Multiplikator

cutoff_len

1024–4096

Maximale Sequenzlänge

quantization_bit

4 oder 8

QLoRA-Quantisierungsbits

warmup_ratio

0.05–0.1

LR-Warmup-Anteil

lr_scheduler_type

cosine

LR-Schedule

Unterstützte Fine-Tuning-Methoden

Methode
Speichernutzung
Qualität
Wann verwenden

full

Sehr hoch

Beste

Unbegrenzter VRAM

freeze

Mittel

Gut

Basis-Schichten einfrieren

lora

Niedrig

Sehr gut

Standardwahl

qlora (lora+quant)

Am niedrigsten

Gut

Begrenzter VRAM

Multi-GPU DeepSpeed-Training

Für Training auf mehreren GPUs starten Sie mit torchrun:


Leistungs-Tipps

1. Optimale QLoRA-Einstellungen nach GPU

8 GB VRAM (RTX 3070):

24 GB VRAM (RTX 3090/4090):

80 GB VRAM (A100):

2. Flash Attention 2 für längere Kontexte

Dies ermöglicht Training mit 2× längeren Sequenzen bei gleichem VRAM.

3. Gradient Checkpointing

Spart VRAM auf Kosten von ~20% langsamerem Training:

4. Wählen Sie das richtige LoRA-Ziel

5. Obere Schichten einfrieren für schnelle Anpassung

Viel schneller als vollständiges LoRA für einfache Aufgabenanpassungen.

6. Mit TensorBoard überwachen

Fügen Sie Port 6006 zu Ihrer CLORE.AI-Bestellung hinzu, um auf TensorBoard zuzugreifen.


Fehlerbehebung

Problem: "CUDA out of memory" während des Trainings

  1. Batch-Größe reduzieren: per_device_train_batch_size: 1

  2. Gradient Checkpointing aktivieren: gradient_checkpointing: true

  3. Kontextlänge reduzieren: cutoff_len: 512

  4. Verwenden Sie QLoRA (4-bit): quantization_bit: 4

  5. LoRA-Rang reduzieren: lora_rank: 4

Problem: Trainingsverlust sinkt nicht

  • Überprüfen Sie die Lernrate — versuchen Sie 5e-5 oder 2e-4

  • Stellen Sie sicher, dass das Datensatzformat zur Vorlage passt

  • Erhöhen lora_rank (8→16→32)

  • Prüfen Sie, dass lora_target: all gesetzt ist

Problem: Langsame Trainingsgeschwindigkeit

Wenn die GPU < 80% ausgelastet ist:

  • Batch-Größe erhöhen

  • Verwenden Sie Flash Attention: flash_attn: fa2

  • Entfernen Sie gradient_checkpointing falls VRAM es zulässt

Problem: Modell nicht in der Web-UI gefunden

Aktualisieren Sie dann die Modellliste im LLaMA Board.

Problem: Fehler im Datensatzformat

Alle Datensatzformate müssen der dataset_info.json Spezifikation entsprechen:

Problem: WebUI-Port nicht erreichbar

Stellen Sie sicher, dass LLaMA-Factory den Gradio-Server gestartet hat:

Fügen Sie --share Flag für eine öffentliche Gradio-URL als Alternative.



Clore.ai GPU-Empfehlungen

Anwendungsfall
Empfohlene GPU
Geschätzte Kosten auf Clore.ai

Entwicklung/Tests

RTX 3090 (24GB)

~$0.12/gpu/hr

Fine-Tuning (7B–13B)

RTX 4090 (24GB)

~$0.70/gpu/hr

Große Modelle (70B+)

A100 80GB

~$1.20/gpu/hr

Multi-GPU-Training

2–4× A100 80GB

~$2.40–$4.80/hr

💡 Alle Beispiele in diesem Leitfaden können bereitgestellt werden auf Clore.aiarrow-up-right GPU-Servern. Durchsuchen Sie verfügbare GPUs und mieten Sie stundenweise — keine Verpflichtungen, voller Root-Zugriff.

Zuletzt aktualisiert

War das hilfreich?