LLM feinabstimmen

Benutzerdefinierte LLMs mit effizienten Techniken auf Clore.ai‑GPUs feinabstimmen

Trainieren Sie Ihr eigenes benutzerdefiniertes LLM mit effizienten Fine-Tuning-Techniken auf CLORE.AI-GPUs.

circle-check

Mieten auf CLORE.AI

  1. Nach GPU-Typ, VRAM und Preis filtern

  2. Wählen On-Demand (Festpreis) oder Spot (Gebotspreis)

  3. Konfigurieren Sie Ihre Bestellung:

    • Docker-Image auswählen

    • Ports festlegen (TCP für SSH, HTTP für Web-UIs)

    • Gegebenenfalls Umgebungsvariablen hinzufügen

    • Startbefehl eingeben

  4. Zahlung auswählen: CLORE, BTC, oder USDT/USDC

  5. Bestellung erstellen und auf Bereitstellung warten

Greifen Sie auf Ihren Server zu

  • Verbindungsdetails finden in Meine Bestellungen

  • Webschnittstellen: Verwenden Sie die HTTP-Port-URL

  • SSH: ssh -p <port> root@<proxy-address>

Was ist LoRA/QLoRA?

  • LoRA (Low-Rank Adaptation) - Trainieren Sie kleine Adapter-Schichten statt des gesamten Modells

  • QLoRA - LoRA mit Quantisierung für noch weniger VRAM

  • Trainieren Sie ein 7B-Modell auf einer einzelnen RTX 3090

  • Trainieren Sie ein 70B-Modell auf einer einzelnen A100

Anforderungen

Modell
Methode
Min. VRAM
Empfohlen

7B

QLoRA

12GB

RTX 3090

13B

QLoRA

20GB

RTX 4090

70B

QLoRA

48GB

A100 80GB

7B

Volles LoRA

24GB

RTX 4090

Schnelle Bereitstellung

Docker-Image:

Ports:

Befehl:

Zugriff auf Ihren Dienst

Nach der Bereitstellung finden Sie Ihre http_pub URL in Meine Bestellungen:

  1. Gehen Sie zur Meine Bestellungen Seite

  2. Klicken Sie auf Ihre Bestellung

  3. Finden Sie die http_pub URL (z. B. abc123.clorecloud.net)

Verwenden Sie https://YOUR_HTTP_PUB_URL anstatt localhost in den Beispielen unten.

Datensatzvorbereitung

Chat-Format (empfohlen)

Instruktionsformat

Alpaca-Format

Unterstützte moderne Modelle (2025)

Modell
HF-ID
Min. VRAM (QLoRA)

Llama 3.1 / 3.3 8B

meta-llama/Llama-3.1-8B-Instruct

12GB

Qwen 2.5 7B / 14B

Qwen/Qwen2.5-7B-Instruct

12GB / 20GB

DeepSeek-R1-Distill (7B/8B)

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

12GB

Mistral 7B v0.3

mistralai/Mistral-7B-Instruct-v0.3

12GB

Gemma 2 9B

google/gemma-2-9b-it

14GB

Phi-4 14B

microsoft/phi-4

20GB

QLoRA Fine-Tuning-Skript

Modernes Beispiel mit PEFT 0.14+, Flash Attention 2, DoRA-Unterstützung und Qwen2.5 / DeepSeek-R1-Kompatibilität:

Flash Attention 2

Flash Attention 2 reduziert den VRAM-Verbrauch und beschleunigt das Training deutlich. Erfordert Ampere+ GPU (RTX 3090, RTX 4090, A100).

Einstellung
VRAM (7B)
Geschwindigkeit

Standard-Attention (fp16)

~22GB

Basislinie

Flash Attention 2 (bf16)

~16GB

+30%

Flash Attention 2 + QLoRA

~12GB

+30%

DoRA (Weight-Decomposed LoRA)

DoRA (PEFT >= 0.14) zerlegt vortrainierte Gewichte in Betrag- und Richtungs-Komponenten. Es verbessert die Fine-Tuning-Qualität, besonders bei kleineren Rängen.

Beispiele für Qwen2.5 & DeepSeek-R1-Distill

Qwen2.5 Fine-Tuning

DeepSeek-R1-Distill Fine-Tuning

DeepSeek-R1-Distill-Modelle (Qwen-7B, Qwen-14B, Llama-8B, Llama-70B) sind auf Reasoning ausgerichtet. Feinabstimmung, um ihren Chain-of-Thought-Stil an Ihre Domäne anzupassen.

Verwendung von Axolotl (einfacher)

Axolotl vereinfacht das Fine-Tuning mit YAML-Konfigurationen:

Axolotl Config-Beispiele

Chat-Modell

Code-Modell

LoRA-Gewichte zusammenführen

Nach dem Training LoRA zurück in das Basismodell mergen:

In GGUF konvertieren

Zur Verwendung mit llama.cpp/Ollama:

Training überwachen

Weights & Biases

TensorBoard

Best Practices

Hyperparameter

Parameter
7B-Modell
13B-Modell
70B-Modell

batch_size

4

2

1

grad_accum

4

8

16

lr

2e-4

1e-4

5e-5

lora_r

64

32

16

Epochen

3

2-3

1-2

Datensatzgröße

  • Minimum: 1.000 Beispiele

  • Gut: 10.000+ Beispiele

  • Qualität > Quantität

Überanpassung vermeiden

Multi-GPU-Training

DeepSpeed-Konfiguration:

Speichern & Exportieren

Fehlerbehebung

OOM-Fehler

  • Batch-Größe reduzieren

  • Gradient Accumulation erhöhen

  • Verwenden Sie gradient_checkpointing=True

  • lora_r reduzieren

Trainingsverlust sinkt nicht

  • Datenformat überprüfen

  • Lernrate erhöhen

  • Auf Datenprobleme prüfen

NaN-Verlust

  • Lernrate reduzieren

  • fp32 statt fp16 verwenden

  • Auf korrupte Daten prüfen

Kostenabschätzung

Typische CLORE.AI-Marktplatzpreise (Stand 2024):

GPU
Stundenpreis
Tagespreis
4-Stunden-Sitzung

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Preise variieren je nach Anbieter und Nachfrage. Prüfen CLORE.AI Marketplacearrow-up-right für aktuelle Preise.

📚 Siehe auch: Wie man LLaMA 3 auf einer Cloud-GPU feintuned — Schritt-für-Schritt-Anleitungarrow-up-right

Geld sparen:

  • Verwenden Sie Spot Markt für flexible Workloads (oft 30–50% günstiger)

  • Bezahlen mit CLORE Token

  • Preise bei verschiedenen Anbietern vergleichen

Zuletzt aktualisiert

War das hilfreich?