Unsloth 2x schnelleres Fine-Tuning

Feinabstimmung von LLMs doppelt so schnell mit 70% weniger VRAM mithilfe von Unsloth auf Clore.ai

Unsloth schreibt die leistungs‑kritischen Teile von HuggingFace Transformers mit handoptimierten Triton‑Kernels neu und liefert 2x schnellere Trainingsgeschwindigkeit und 70% weniger VRAM ohne Genauigkeitsverlust. Es ist ein Drop‑in‑Ersatz — Ihre bestehenden TRL/PEFT‑Skripte funktionieren unverändert nach dem Austausch des Imports.

circle-check

Hauptmerkmale

  • 2x schnelleres Training — benutzerdefinierte Triton‑Kernels für Attention, RoPE, Kreuzentropie und RMS‑Norm

  • 70% weniger VRAM — intelligente Gradient‑Checkpointing und speicherabbildbare Gewichte

  • Drop‑in Ersatz für HuggingFace — nur ein Importwechsel, nichts weiter

  • QLoRA / LoRA / vollständiges Fine‑Tuning — alle Modi werden sofort unterstützt

  • Native Exportfunktion — direkt in GGUF (alle Quantisierungstypen), LoRA‑Adapter oder zusammengeführtes 16‑Bit speichern

  • Breite Modellunterstützung — Llama 3.x, Mistral, Qwen 2.5, Gemma 2, DeepSeek‑R1, Phi‑4 und mehr

  • Kostenlos und Open Source (Apache 2.0)

Anforderungen

Komponente
Minimum
Empfohlen

GPU

RTX 3060 12 GB

RTX 4090 24 GB

VRAM

10 GB

24 GB

RAM

16 GB

32 GB

Festplatte

40 GB

80 GB

CUDA

11.8

12.1+

Python

3.10

3.11

Clore.ai-Preise: RTX 4090 ≈ $0.5–2/Tag · RTX 3090 ≈ $0.3–1/Tag · RTX 3060 ≈ $0.15–0.3/Tag

Ein 7B‑Modell mit 4‑Bit‑QLoRA passt in ~10 GB VRAM, wodurch sogar eine RTX 3060 nutzbar wird.

Schnellstart

1. Unsloth installieren

2. Ein Modell mit 4‑Bit‑Quantisierung laden

3. LoRA‑Adapter anwenden

4. Daten vorbereiten und trainieren

Modell exportieren

Nur LoRA‑Adapter speichern

Vollständiges Modell zusammenführen und speichern (float16)

Export nach GGUF für Ollama / llama.cpp

Nach dem Export mit Ollama bereitstellen:

Beispielanwendungen

Feinabstimmung auf einem eigenen Chat‑Datensatz

DPO / ORPO Alignment Training

VRAM-Nutzungsreferenz

Modell
Quant
Methode
VRAM
GPU

Llama 3.1 8B

4‑Bit

QLoRA

~10 GB

RTX 3060

Llama 3.1 8B

16‑Bit

LoRA

~18 GB

RTX 3090

Qwen 2.5 14B

4‑Bit

QLoRA

~14 GB

RTX 3090

Mistral 7B

4‑Bit

QLoRA

~9 GB

RTX 3060

DeepSeek-R1 7B

4‑Bit

QLoRA

~10 GB

RTX 3060

Llama 3.3 70B

4‑Bit

QLoRA

~44 GB

2× RTX 3090

Tipps

  • Immer verwenden use_gradient_checkpointing="unsloth" — dies ist der größte einzelne VRAM‑Sparer, einzigartig bei Unsloth

  • Setze lora_dropout=0 — Unsloths Triton‑Kernels sind für Null‑Dropout optimiert und laufen schneller

  • Verwenden Sie packing=True im SFTTrainer, um Padding‑Verschwendung bei kurzen Beispielen zu vermeiden

  • Beginnen Sie mit r=16 für LoRA‑Rang — auf 32 oder 64 nur erhöhen, wenn der Validierungsverlust stagniert

  • Mit wandb überwachen — füge hinzu report_to="wandb" in TrainingArguments zur Verlustüberwachung

  • Batch-Größen-Tuning — erhöhe per_device_train_batch_size bis du an die VRAM‑Grenze kommst, kompensiere dann mit gradient_accumulation_steps

Fehlerbehebung

Problem
Lösung

OutOfMemoryError während des Trainings

Batch‑Größe auf 1 reduzieren, max_seq_length, oder 4‑Bit‑Quantisierung verwenden

Triton‑Kernel‑Kompilierungsfehler

Ausführen pip install triton --upgrade und sicherstellen, dass das CUDA‑Toolkit übereinstimmt

Langsamer erster Schritt (Kompilierung)

Normal — Triton kompiliert die Kernels beim ersten Lauf, danach werden sie gecacht

bitsandbytes CUDA‑Versionsfehler

Installiere die passende Version: pip install bitsandbytes --upgrade

Verlustspitzen während des Trainings

Lernrate auf 1e-4 senken, Warmup‑Schritte hinzufügen

GGUF‑Export stürzt ab

Stelle genügend RAM (2× Modellgröße) und Festplattenspeicher für die Konvertierung sicher

Ressourcen

Zuletzt aktualisiert

War das hilfreich?