LitGPT

LitGPT est une bibliothèque haute performance pour le pré-entraînement, l'ajustement fin (finetuning) et le déploiement de plus de 20 grands modèles de langage construite sur PyTorch Lightning. Avec plus de 12K étoiles sur GitHub, c'est une boîte à outils de référence pour les ingénieurs qui ont besoin d'un code d'entraînement de LLM propre et modifiable sans la surcharge d'abstraction de HuggingFace Transformers.

Chaque modèle dans LitGPT fait ~1 000 lignes de PyTorch propre — pas de chaînes d'héritage à 10 niveaux, pas de magie. Vous pouvez lire l'implémentation de Llama 3 de bout en bout en un après-midi et la modifier en toute confiance.

circle-check

Qu'est-ce que LitGPT ?

LitGPT fournit des implémentations prêtes pour la production de LLMs à la pointe avec une interface d'entraînement unifiée :

  • Plus de 20 modèles pris en charge — Llama 3, Gemma 2, Mistral, Phi-3, Falcon, StableLM, et plus

  • Préentraînement depuis zéro — préentraînement complet avec Flash Attention, FSDP et checkpointing de gradient

  • Ajustement fin efficace — finetuning complet, LoRA, QLoRA et méthodes Adapter

  • Servir en toute confiance — serveur d'inférence intégré avec quantification

  • Prise en charge multi-GPU — DDP, FSDP, parallélisme tensoriel prêts à l'emploi

  • Efficace en mémoire — quantification 4 bits, checkpointing de gradient, checkpointing d'activations


Exigences du serveur

Composant
Minimum
Recommandé

GPU

RTX 3090 (24 Go)

A100 80 Go / H100

VRAM

16 Go (LoRA 7B)

80 Go+ (70B complet)

RAM

32 Go

64 Go+

CPU

8 cœurs

16+ cœurs

Stockage

100 Go

500 Go+

OS

Ubuntu 20.04+

Ubuntu 22.04

Python

3.10+

3.11

CUDA

11.8+

12.1+

Exigences de VRAM par tâche

Tâche
Modèle
VRAM

Inférence (4 bits)

Llama-3 8B

~6 Go

LoRA finetune

Llama-3 8B

~16 Go

Finetuning complet

Llama-3 8B

~80 Go

LoRA finetune

Llama-3 70B

~48 Go (2×A100)

Finetuning complet

Llama-3 70B

~640 Go (8×A100)

QLoRA finetune

Llama-3 8B

~8 Go


Ports

Port
Service
Remarques

22

SSH

Accès terminal et transfert de fichiers

8000

Serveur d'inférence LitGPT

API REST pour le service de modèles


Démarrage rapide avec Docker


Installation sur Clore.ai

Étape 1 — Louer un serveur

  1. Filtrer par VRAM ≥ 24 Go (RTX 3090 ou mieux)

  2. Choisir un PyTorch ou CUDA 12.1 image de base

  3. Ouvrir les ports 22 et 8000 dans les paramètres de votre commande

  4. Sélectionner stockage ≥ 200 Go pour les poids du modèle

Étape 2 — Se connecter via SSH

Étape 3 — Installer LitGPT

Étape 4 — Vérifier l'installation

Sortie attendue :


Téléchargement des modèles

LitGPT télécharge les modèles depuis Hugging Face :

Définir le token HuggingFace


Inférence (Chat & Génération)


Ajustement fin (Finetuning)

Ajustement LoRA (recommandé)

LoRA entraîne un petit ensemble de paramètres d'adapteur (typiquement 0,1–1% des poids totaux) tandis que le modèle de base reste gelé. LoRA sur Llama 3 8B avec 10K exemples prend ~2 heures sur une RTX 3090 avec r=16.

QLoRA (4 bits + LoRA)

Utilisez QLoRA pour affiner de grands modèles avec une VRAM limitée. Llama 3 8B tient sur une seule RTX 3090 de 24 Go :

Finetuning complet

Entraînement Multi-GPU


Servir des modèles (API REST)

Client Python


Préentraînement depuis zéro

Pour entraîner un LLM personnalisé depuis zéro sur vos propres données :


Conversion et export de modèles


Évaluation des modèles


Recommandations GPU Clore.ai

LitGPT couvre trois charges de travail distinctes — inférence, ajustement LoRA et préentraînement complet — chacune avec des exigences GPU différentes.

Charge de travail
GPU
VRAM
Remarques

Inférence / chat (modèles 7–8B)

RTX 3090

24 Go

Convient à Llama 3 8B en bf16 ; ~95 tok/s en génération

LoRA finetune (modèles 7–8B)

RTX 3090

24 Go

Choix économique ; QLoRA maintient la VRAM sous 10 Go

LoRA finetune (7–8B), itération rapide

RTX 4090

24 Go

~35% plus rapide que 3090 ; réduit un job de 2h à ~1,4h

Finetuning complet (7B) ou QLoRA (70B)

A100 40 Go

40 Go

40 Go permet le 7B en précision complète ou le 70B en 4 bits

Finetuning complet (13B+) ou exécutions de préentraînement

A100 80 Go

80 Go

Débit le plus élevé ; ~2 800 tok/sec en entraînement sur 8B

Recommandé pour la plupart des utilisateurs : Paire de RTX 3090 (2×24 Go = 48 Go effectifs avec FSDP). Gère QLoRA sur des modèles 70B, ou finetuning complet sur des modèles 7B avec parallélisme tensoriel. Coût sur Clore.ai : ~0,25 $/h pour deux 3090.

Pour le préentraînement ou l'affinage >70B : Utilisez 4×A100 80Go avec FSDP. L'intégration FSDP de LitGPT gère le sharding de manière transparente — il suffit de passer --devices 4 --strategy fsdp.


Dépannage

CUDA : mémoire insuffisante

Échec du téléchargement / HuggingFace 401

La perte d'entraînement n'augmente pas (ne diminue pas)

Le port serveur 8000 n'est pas accessible

L'entraînement Multi-GPU se bloque


Liens utiles

Mis à jour

Ce contenu vous a-t-il été utile ?