LitGPT

LitGPT ist eine leistungsstarke Bibliothek zum Vortrainieren, Feinabstimmen und Bereitstellen von über 20 großen Sprachmodellen, aufgebaut auf PyTorch Lightning. Mit über 12.000 GitHub-Sternen ist sie ein bevorzugtes Toolkit für Ingenieure, die sauberen, leicht anpassbaren LLM-Trainingscode ohne den Abstraktionsaufwand von HuggingFace Transformers benötigen.

Jedes Modell in LitGPT ist ~1.000 Zeilen sauberes PyTorch — keine Vererbungsketten mit 10 Ebenen, keine Magie. Du kannst die Llama-3-Implementierung an einem Nachmittag vollständig lesen und sie dann mit Gewissheit ändern.

circle-check

Was ist LitGPT?

LitGPT bietet produktionsreife Implementierungen modernster LLMs mit einer einheitlichen Trainingsschnittstelle:

  • Über 20 unterstützte Modelle — Llama 3, Gemma 2, Mistral, Phi-3, Falcon, StableLM und mehr

  • Vortraining von Grund auf — vollständiges Vortraining mit Flash Attention, FSDP und Gradient Checkpointing

  • Effizientes Feinabstimmen — vollständiges Finetuning, LoRA, QLoRA und Adapter-Methoden

  • Bereitstellung mit Vertrauen — integrierter Inferenzserver mit Quantisierung

  • Multi-GPU-Unterstützung — DDP, FSDP, Tensorparallelität sofort einsatzbereit

  • Speichereffizient — 4-Bit-Quantisierung, Gradient Checkpointing, Aktivierungs-Checkpointing


Serveranforderungen

Komponente
Minimum
Empfohlen

GPU

RTX 3090 (24 GB)

A100 80 GB / H100

VRAM

16 GB (7B LoRA)

80 GB+ (70B vollständig)

RAM

32 GB

64 GB+

CPU

8 Kerne

16+ Kerne

Speicher

100 GB

500 GB+

Betriebssystem

Ubuntu 20.04+

Ubuntu 22.04

Python

3.10+

3.11

CUDA

11.8+

12.1+

VRAM-Anforderungen nach Aufgabe

Aufgabe
Modell
VRAM

Inference (4-Bit)

Llama-3 8B

~6 GB

LoRA-Finetune

Llama-3 8B

~16 GB

Volles Finetuning

Llama-3 8B

~80 GB

LoRA-Finetune

Llama-3 70B

~48 GB (2×A100)

Volles Finetuning

Llama-3 70B

~640 GB (8×A100)

QLoRA-Finetune

Llama-3 8B

~8 GB


Ports

Port
Dienst
Hinweise

22

SSH

Terminalzugang & Dateitransfer

8000

LitGPT Inference Server

REST-API für Modellbereitstellung


Schnellstart mit Docker


Installation auf Clore.ai

Schritt 1 — Einen Server mieten

  1. Filtere nach VRAM ≥ 24 GB (RTX 3090 oder besser)

  2. Wähle ein PyTorch oder CUDA 12.1 Basis-Image

  3. Öffne Ports 22 und 8000 in deinen Bestelloptionen

  4. Wähle Speicher ≥ 200 GB für Modellgewichte

Schritt 2 — Verbindung per SSH

Schritt 3 — LitGPT installieren

Schritt 4 — Installation überprüfen

Erwartete Ausgabe:


Modelle herunterladen

LitGPT lädt Modelle von Hugging Face herunter:

HuggingFace-Token setzen


Inference (Chat & Generieren)


Feinabstimmung

LoRA-Finetuning (empfohlen)

LoRA trainiert eine kleine Menge Adapter-Parameter (typischerweise 0,1–1 % der Gesamtgewichte), während das Basismodell eingefroren bleibt. Llama 3 8B LoRA auf 10K Beispielen dauert ~2 Stunden auf einer RTX 3090 mit r=16.

QLoRA (4-Bit + LoRA)

Verwende QLoRA, um große Modelle mit begrenztem VRAM zu finetunen. Llama 3 8B passt auf eine einzelne RTX 3090 mit 24 GB:

Vollständiges Finetuning

Multi-GPU-Training


Modelle bereitstellen (REST-API)

Python-Client


Vortraining von Grund auf

Zum Trainieren eines eigenen LLM von Grund auf mit deinen Daten:


Modelle konvertieren und exportieren


Modelle evaluieren


Clore.ai GPU-Empfehlungen

LitGPT deckt drei unterschiedliche Workloads ab — Inferenz, LoRA-Finetuning und vollständiges Vortraining — jeweils mit unterschiedlichen GPU-Anforderungen.

Workload
GPU
VRAM
Hinweise

Inference / Chat (7–8B-Modelle)

RTX 3090

24 GB

Passt Llama 3 8B in bf16; ~95 Tok/s Generierung

LoRA-Finetune (7–8B-Modelle)

RTX 3090

24 GB

Budget-Wahl; QLoRA hält den VRAM unter 10 GB

LoRA-Finetune (7–8B), schnelle Iteration

RTX 4090

24 GB

~35 % schneller als 3090; reduziert einen 2‑Stunden-Job auf ~1,4 Stunden

Volles Finetuning (7B) oder QLoRA (70B)

A100 40 GB

40 GB

40 GB passt für 7B in voller Präzision oder 70B in 4-Bit

Volles Finetuning (13B+) oder Pretrain-Läufe

A100 80 GB

80 GB

Höchste Durchsatzrate; ~2.800 Tok/s Training auf 8B

Empfohlen für die meisten Nutzer: Paar RTX 3090 (2×24 GB = 48 GB effektiv mit FSDP). Handhabt QLoRA auf 70B-Modellen oder vollständiges Finetuning auf 7B-Modellen mit Tensor-Parallelität. Kosten auf Clore.ai: ca. $0.25/Stunde für zwei 3090.

Für Pretraining oder Finetuning >70B: Verwende 4×A100 80GB mit FSDP. LitGPTs FSDP-Integration übernimmt das Sharding transparent — übergib einfach --devices 4 --strategy fsdp.


Fehlerbehebung

CUDA Out of Memory

Download schlägt fehl / HuggingFace 401

Trainingsverlust sinkt nicht

Server-Port 8000 nicht erreichbar

Multi-GPU-Training hängt


Zuletzt aktualisiert

War das hilfreich?