Entraînement DeepSpeed

Entraînez de grands modèles efficacement avec DeepSpeed sur les GPU Clore.ai

Entraînez efficacement de grands modèles avec Microsoft DeepSpeed.

circle-check

Location sur CLORE.AI

  1. Filtrer par type de GPU, VRAM et prix

  2. Choisir À la demande (tarif fixe) ou Spot (prix d'enchère)

  3. Configurez votre commande :

    • Sélectionnez l'image Docker

    • Définissez les ports (TCP pour SSH, HTTP pour les interfaces web)

    • Ajoutez des variables d'environnement si nécessaire

    • Entrez la commande de démarrage

  4. Sélectionnez le paiement : CLORE, BTC, ou USDT/USDC

  5. Créez la commande et attendez le déploiement

Accédez à votre serveur

  • Trouvez les détails de connexion dans Mes commandes

  • Interfaces Web : utilisez l'URL du port HTTP

  • SSH : ssh -p <port> root@<adresse-proxy>

Qu'est-ce que DeepSpeed ?

DeepSpeed permet :

  • Entraîner des modèles qui ne tiennent pas dans la mémoire GPU

  • Entraînement multi-GPU et multi-nœud

  • Optimisation ZeRO (efficacité mémoire)

  • Entraînement en précision mixte

Étages ZeRO

Étape
Économie de mémoire
Vitesse

ZeRO-1

États de l'optimiseur partitionnés

Rapide

ZeRO-2

+ Gradients partitionnés

Équilibré

ZeRO-3

+ Paramètres partitionnés

Économies maximales

ZeRO-Infinity

Déchargement CPU/NVMe

Plus grands modèles

Déploiement rapide

Image Docker :

Ports :

Commande :

Installation

Entraînement de base

Configuration DeepSpeed

ds_config.json :

Script d'entraînement

Configuration ZeRO Stage 2

Configuration ZeRO Stage 3

Pour les grands modèles :

Avec Hugging Face Transformers

Intégration Trainer

Entraînement multi-GPU

Commande de lancement

Avec torchrun

Entraînement multi-nœud

Fichier d'hôtes

hostfile :

Lancer

Configuration SSH

Configurations efficaces en mémoire

Modèle 7B sur GPU 24GB

Modèle 13B sur GPU 24GB

Gradient Checkpointing

Économisez de la mémoire en recalculant les activations :

Enregistrer et charger des points de contrôle

Enregistrer

Charger

Enregistrer au format HuggingFace

Surveillance

TensorBoard

Weights & Biases

Problèmes courants

Mémoire insuffisante

Entraînement lent

  • Réduire le déchargement CPU

  • Augmenter la taille de batch

  • Utiliser ZeRO Stage 2 au lieu du 3

Erreurs NCCL

Conseils de performance

Astuce
Effet

Utiliser bf16 plutôt que fp16

Meilleure stabilité

Activer le gradient checkpointing

Moins de mémoire

Ajuster la taille du batch

Meilleur débit

Utiliser le déchargement NVMe

Plus grands modèles

Comparaison des performances

Modèle
GPUs
Étape ZeRO
Vitesse d'entraînement

7B

1x A100

ZeRO-3

~1000 tokens/s

7B

4x A100

ZeRO-2

~4000 tokens/s

13B

4x A100

ZeRO-3

~2000 tokens/s

70B

8x A100

ZeRO-3

~800 tokens/s

Dépannage

Estimation des coûts

Tarifs typiques du marché CLORE.AI (à partir de 2024) :

GPU
Tarif horaire
Tarif journalier
Session de 4 heures

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Les prix varient selon le fournisseur et la demande. Vérifiez CLORE.AI Marketplacearrow-up-right pour les tarifs actuels.

Économisez de l'argent :

  • Utilisez Spot market pour les charges de travail flexibles (souvent 30-50 % moins cher)

  • Payer avec CLORE jetons

  • Comparer les prix entre différents fournisseurs

Prochaines étapes

Mis à jour

Ce contenu vous a-t-il été utile ?