DeepSpeed Training

Trainieren Sie große Modelle effizient mit DeepSpeed auf Clore.ai GPUs

Trainiere große Modelle effizient mit Microsoft DeepSpeed.

circle-check

Mieten auf CLORE.AI

  1. Nach GPU-Typ, VRAM und Preis filtern

  2. Wählen On-Demand (Festpreis) oder Spot (Gebotspreis)

  3. Konfigurieren Sie Ihre Bestellung:

    • Docker-Image auswählen

    • Ports festlegen (TCP für SSH, HTTP für Web-UIs)

    • Umgebungsvariablen bei Bedarf hinzufügen

    • Startbefehl eingeben

  4. Zahlung auswählen: CLORE, BTC, oder USDT/USDC

  5. Bestellung erstellen und auf Bereitstellung warten

Zugriff auf Ihren Server

  • Verbindungsdetails finden Sie in Meine Bestellungen

  • Webschnittstellen: Verwenden Sie die HTTP-Port-URL

  • SSH: ssh -p <port> root@<proxy-address>

Was ist DeepSpeed?

DeepSpeed ermöglicht:

  • Modelle zu trainieren, die nicht in den GPU-Speicher passen

  • Training auf mehreren GPUs und mehreren Knoten

  • ZeRO-Optimierung (Speichereffizienz)

  • Training mit gemischter Genauigkeit

ZeRO-Stufen

Stufe
Speichereinsparung
Geschwindigkeit

ZeRO-1

Optimiererzustände partitioniert

Schnell

ZeRO-2

+ Gradienten partitioniert

Ausgeglichen

ZeRO-3

+ Parameter partitioniert

Maximale Einsparungen

ZeRO-Infinity

CPU/NVMe-Auslagerung

Größte Modelle

Schnelle Bereitstellung

Docker-Image:

Ports:

Befehl:

Installation

Grundlegendes Training

DeepSpeed-Konfiguration

ds_config.json:

Trainingsskript

ZeRO Stufe-2 Konfiguration

ZeRO Stufe-3 Konfiguration

Für große Modelle:

Mit Hugging Face Transformers

Trainer-Integration

Multi-GPU-Training

Startbefehl

Mit torchrun

Multi-Node-Training

Hostdatei

hostfile:

Starten

SSH-Einrichtung

Speichereffiziente Konfigurationen

7B-Modell auf 24GB GPU

13B-Modell auf 24GB GPU

Gradient Checkpointing

Sparen Sie Speicher, indem Aktivierungen neu berechnet werden:

Checkpoints speichern und laden

Speichern

Laden

Im HuggingFace-Format speichern

Überwachung

TensorBoard

Weights & Biases

Häufige Probleme

Kein Speicher mehr

Langsames Training

  • Reduziere CPU-Auslagerung

  • Erhöhe die Batch-Größe

  • Verwende ZeRO Stufe 2 statt 3

NCCL-Fehler

Performance-Tipps

Tipp
Effekt

Verwende bf16 statt fp16

Bessere Stabilität

Aktiviere Gradient Checkpointing

Weniger Speicher

Tunte die Batch-Größe

Besserer Durchsatz

Verwende NVMe-Auslagerung

Größere Modelle

Leistungsvergleich

Modell
GPUs
ZeRO-Stufe
Trainingstempo

7B

1x A100

ZeRO-3

~1000 Tokens/s

7B

4x A100

ZeRO-2

~4000 Tokens/s

13B

4x A100

ZeRO-3

~2000 Tokens/s

70B

8x A100

ZeRO-3

~800 Tokens/s

Fehlerbehebung

Kostenabschätzung

Typische CLORE.AI-Marktplatztarife (Stand 2024):

GPU
Stundensatz
Tagessatz
4-Stunden-Sitzung

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Preise variieren je nach Anbieter und Nachfrage. Prüfen Sie CLORE.AI Marketplacearrow-up-right auf aktuelle Preise.

Geld sparen:

  • Verwenden Sie Spot Markt für flexible Workloads (oft 30–50% günstiger)

  • Bezahlen mit CLORE Token

  • Preise bei verschiedenen Anbietern vergleichen

Nächste Schritte

Zuletzt aktualisiert

War das hilfreich?