Multi-GPU-Setup

Große AI-Modelle über mehrere GPUs auf Clore.ai betreiben

Führen Sie große KI-Modelle über mehrere GPUs auf CLORE.AI aus.

circle-check

Wann benötigen Sie Multi-GPU?

Modellgröße
Option Einzel-GPU
Option Multi-GPU

≤13B

RTX 3090 (Q4)

Nicht erforderlich

30B

RTX 4090 (Q4)

2x RTX 3090

70B

A100 40GB (Q4)

2x RTX 4090

70B FP16

-

2x A100 80GB

100B+

-

4x A100 80GB

405B

-

8x A100 80GB


Multi-GPU-Konzepte

Tensor-Parallellität (TP)

Teilen Sie Modellschichten über GPUs auf. Am besten für Inferenz.

GPU 0: Schichten 1-20
GPU 1: Schichten 21-40

Vorteile: Geringere Latenz, einfache Einrichtung Nachteile: Erfordert Hochgeschwindigkeits-Interconnect

Pipeline-Parallellität (PP)

Verarbeiten Sie verschiedene Batches auf verschiedenen GPUs.

Vorteile: Höherer Durchsatz Nachteile: Höhere Latenz, komplexer

Daten-Parallellität (DP)

Dasselbe Modell auf mehreren GPUs, unterschiedliche Daten.

Vorteile: Einfach, lineare Skalierung Nachteile: Jede GPU benötigt das vollständige Modell


LLM Multi-GPU-Setup

vLLM (Empfohlen)

2 GPUs:

4 GPUs:

8 GPUs (für 405B):

Ollama Multi-GPU

Ollama verwendet automatisch mehrere GPUs, wenn verfügbar:

Auf bestimmte GPUs beschränken:

Text Generation Inference (TGI)

llama.cpp


Bildgenerierung Multi-GPU

ComfyUI

ComfyUI kann verschiedene Modelle auf verschiedene GPUs auslagern:

VAE auf separater GPU ausführen:

Stable Diffusion WebUI

Multi-GPU in webui-user.sh aktivieren:

FLUX Multi-GPU


Training Multi-GPU

PyTorch Distributed

Start:

DeepSpeed

Start:

Accelerate (HuggingFace)

Konfigurieren:

Kohya Training (LoRA)


GPU-Auswahl

Verfügbare GPUs prüfen

Bestimmte GPUs auswählen

Umgebungsvariable:

In Python:


Leistungsoptimierung

Verbindung
Bandbreite
Am besten geeignet für

NVLink

600 GB/s

Tensor-Parallele Verarbeitung

PCIe 4.0

32 GB/s

Datenparallellität

PCIe 5.0

64 GB/s

Gemischte Workloads

NVLink-Status prüfen:

Optimale Konfiguration

GPUs
TP-Größe
PP-Größe
Hinweise

2

2

1

Einfache Tensor-Parallele

4

4

1

Erfordert NVLink

4

2

2

PCIe-freundlich

8

8

1

Volle Tensor-Parallele

8

4

2

Gemischte Parallellität

Speicherausgleich

Gleichmäßige Aufteilung (Standard):

Benutzerdefinierte Aufteilung (ungleiche GPUs):


Fehlerbehebung

"NCCL-Fehler"

"Nicht genügend Speicher auf GPU X"

"Langsame Multi-GPU-Leistung"

  1. NVLink-Konnektivität prüfen

  2. Tensor-Parallellgröße reduzieren

  3. Stattdessen Pipeline-Parallellität verwenden

  4. CPU-Engpass prüfen

"GPUs nicht erkannt"


Kostenoptimierung

Wann sich Multi-GPU lohnt

Szenario
Einzel-GPU
Multi-GPU
Gewinner

70B gelegentliche Nutzung

A100 80GB (0,25 $/Std.)

2x RTX 4090 (0,20 $/Std.)

Multi

70B Produktion

A100 40GB (0,17 $/Std.)

2x A100 40GB (0,34 $/Std.)

Einzeln (Q4)

Training 7B

RTX 4090 (0,10 $/Std.)

2x RTX 4090 (0,20 $/Std.)

Hängt von der Zeit ab

Kosten-effektive Konfigurationen

Einsatzgebiet
Konfiguration
~Kosten/Std.

70B Inferenz

2x RTX 3090

$0.12

70B schnelle Inferenz

2x A100 40GB

$0.34

70B FP16

2x A100 80GB

$0.50

Training 13B

2x RTX 4090

$0.20


Beispielkonfigurationen

70B Chat-Server

DeepSeek-V3 (671B)

Bild + LLM-Pipeline


Nächste Schritte

Zuletzt aktualisiert

War das hilfreich?