LLM feinabstimmen

Fine-Tunen Sie benutzerdefinierte LLMs mit effizienten Techniken auf Clore.ai GPUs

Trainieren Sie Ihr eigenes benutzerdefiniertes LLM mit effizienten Fine-Tuning-Techniken auf CLORE.AI-GPUs.

circle-check

Mieten auf CLORE.AI

  1. Nach GPU-Typ, VRAM und Preis filtern

  2. Wählen On-Demand (Festpreis) oder Spot (Gebotspreis)

  3. Konfigurieren Sie Ihre Bestellung:

    • Docker-Image auswählen

    • Ports festlegen (TCP für SSH, HTTP für Web-UIs)

    • Umgebungsvariablen bei Bedarf hinzufügen

    • Startbefehl eingeben

  4. Zahlung auswählen: CLORE, BTC, oder USDT/USDC

  5. Bestellung erstellen und auf Bereitstellung warten

Zugriff auf Ihren Server

  • Verbindungsdetails finden Sie in Meine Bestellungen

  • Webschnittstellen: Verwenden Sie die HTTP-Port-URL

  • SSH: ssh -p <port> root@<proxy-address>

Was ist LoRA/QLoRA?

  • LoRA (Low-Rank Adaptation) - Trainieren Sie kleine Adapterlayer statt des gesamten Modells

  • QLoRA - LoRA mit Quantisierung für noch weniger VRAM

  • Trainieren Sie ein 7B-Modell auf einer einzelnen RTX 3090

  • Trainieren Sie ein 70B-Modell auf einer einzelnen A100

Anforderungen

Modell
Methode
Min. VRAM
Empfohlen

7B

QLoRA

12GB

RTX 3090

13B

QLoRA

20GB

RTX 4090

70B

QLoRA

48GB

A100 80GB

7B

Vollständiges LoRA

24GB

RTX 4090

Schnelle Bereitstellung

Docker-Image:

Ports:

Befehl:

Zugriff auf Ihren Dienst

Nach der Bereitstellung finden Sie Ihre http_pub URL in Meine Bestellungen:

  1. Gehen Sie zur Meine Bestellungen Seite

  2. Klicken Sie auf Ihre Bestellung

  3. Finden Sie die http_pub URL (z. B., abc123.clorecloud.net)

Verwenden Sie https://IHRE_HTTP_PUB_URL anstelle von localhost in den Beispielen unten.

Datensatzvorbereitung

Chat-Format (empfohlen)

Instruktions-Format

Alpaca-Format

Unterstützte moderne Modelle (2025)

Modell
HF-ID
Min. VRAM (QLoRA)

Llama 3.1 / 3.3 8B

meta-llama/Llama-3.1-8B-Instruct

12GB

Qwen 2.5 7B / 14B

Qwen/Qwen2.5-7B-Instruct

12GB / 20GB

DeepSeek-R1-Distill (7B/8B)

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

12GB

Mistral 7B v0.3

mistralai/Mistral-7B-Instruct-v0.3

12GB

Gemma 2 9B

google/gemma-2-9b-it

14GB

Phi-4 14B

microsoft/phi-4

20GB

QLoRA Fine-Tuning-Skript

Modernes Beispiel mit PEFT 0.14+, Flash Attention 2, DoRA-Unterstützung und Qwen2.5 / DeepSeek-R1-Kompatibilität:

Flash Attention 2

Flash Attention 2 reduziert den VRAM-Verbrauch und beschleunigt das Training erheblich. Erfordert Ampere+-GPU (RTX 3090, RTX 4090, A100).

Einstellung
VRAM (7B)
Geschwindigkeit

Standard-Attention (fp16)

~22GB

Baseline

Flash Attention 2 (bf16)

~16GB

+30%

Flash Attention 2 + QLoRA

~12GB

+30%

DoRA (Weight-Decomposed LoRA)

DoRA (PEFT >= 0.14) zerlegt vortrainierte Gewichte in Betrag- und Richtungs-Komponenten. Es verbessert die Fine-Tuning-Qualität, insbesondere bei kleineren Rängen.

Qwen2.5- & DeepSeek-R1-Distill-Beispiele

Qwen2.5 Fine-Tuning

DeepSeek-R1-Distill Fine-Tuning

DeepSeek-R1-Distill-Modelle (Qwen-7B, Qwen-14B, Llama-8B, Llama-70B) sind auf Schlussfolgern ausgerichtet. Fine-Tunen Sie sie, um ihren Chain-of-Thought-Stil an Ihre Domäne anzupassen.

Verwendung von Axolotl (einfacher)

Axolotl vereinfacht Fine-Tuning mit YAML-Konfigurationen:

Axolotl Konfigurationsbeispiele

Chat-Modell

Code-Modell

LoRA-Gewichte zusammenführen

Nach dem Training LoRA wieder in das Basismodell zusammenführen:

In GGUF konvertieren

Zur Verwendung mit llama.cpp/Ollama:

Überwachung des Trainings

Weights & Biases

TensorBoard

Best Practices

Hyperparameter

Parameter
7B-Modell
13B-Modell
70B-Modell

batch_size

4

2

1

grad_accum

4

8

16

lr

2e-4

1e-4

5e-5

lora_r

64

32

16

Epochen

3

2-3

1-2

Datensatzgröße

  • Minimum: 1.000 Beispiele

  • Gut: 10.000+ Beispiele

  • Qualität > Quantität

Vermeidung von Überanpassung

Multi-GPU-Training

DeepSpeed-Konfiguration:

Speichern & Exportieren

Fehlerbehebung

OOM-Fehler

  • Batch-Größe reduzieren

  • Erhöhen Sie die Gradient Accumulation

  • Verwenden Sie gradient_checkpointing=True

  • Reduzieren Sie lora_r

Trainingsverlust fällt nicht

  • Überprüfen Sie das Datenformat

  • Erhöhen Sie die Lernrate

  • Prüfen Sie auf Datenprobleme

NaN-Verlust

  • Verringern Sie die Lernrate

  • Verwenden Sie fp32 statt fp16

  • Überprüfen Sie auf beschädigte Daten

Kostenabschätzung

Typische CLORE.AI-Marktplatztarife (Stand 2024):

GPU
Stundensatz
Tagessatz
4-Stunden-Sitzung

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Preise variieren je nach Anbieter und Nachfrage. Prüfen Sie CLORE.AI Marketplacearrow-up-right auf aktuelle Preise.

Geld sparen:

  • Verwenden Sie Spot Markt für flexible Workloads (oft 30–50% günstiger)

  • Bezahlen mit CLORE Token

  • Preise bei verschiedenen Anbietern vergleichen

Zuletzt aktualisiert

War das hilfreich?