Entraînement DeepSpeed
Entraînez de grands modèles efficacement avec DeepSpeed sur les GPU Clore.ai
Location sur CLORE.AI
Accédez à votre serveur
Qu'est-ce que DeepSpeed ?
Étages ZeRO
Étape
Économie de mémoire
Vitesse
Déploiement rapide
Installation
Entraînement de base
Configuration DeepSpeed
Script d'entraînement
Configuration ZeRO Stage 2
Configuration ZeRO Stage 3
Avec Hugging Face Transformers
Intégration Trainer
Entraînement multi-GPU
Commande de lancement
Avec torchrun
Entraînement multi-nœud
Fichier d'hôtes
Lancer
Configuration SSH
Configurations efficaces en mémoire
Modèle 7B sur GPU 24GB
Modèle 13B sur GPU 24GB
Gradient Checkpointing
Enregistrer et charger des points de contrôle
Enregistrer
Charger
Enregistrer au format HuggingFace
Surveillance
TensorBoard
Weights & Biases
Problèmes courants
Mémoire insuffisante
Entraînement lent
Erreurs NCCL
Conseils de performance
Astuce
Effet
Comparaison des performances
Modèle
GPUs
Étape ZeRO
Vitesse d'entraînement
Dépannage
Estimation des coûts
GPU
Tarif horaire
Tarif journalier
Session de 4 heures
Prochaines étapes
Mis à jour
Ce contenu vous a-t-il été utile ?