GPU-Vergleich

Vollständiger GPU-Vergleichsleitfaden für KI-Workloads auf Clore.ai

Vollständiger Vergleich der auf CLORE.AI verfügbaren GPUs für KI-Workloads.

circle-check

Schnelle Empfehlung

Ihre Aufgabe
Budget-Auswahl
Bestes Preis-Leistungs-Verhältnis
Maximale Leistung

Chat mit KI (7B)

RTX 3060 12GB

RTX 3090 24GB

RTX 5090 32GB

Chat mit KI (70B)

RTX 3090 24GB

RTX 5090 32GB

A100 80GB

Bildgenerierung (SD 1.5)

RTX 3060 12GB

RTX 3090 24GB

RTX 5090 32GB

Bildgenerierung (SDXL)

RTX 3090 24GB

RTX 4090 24GB

RTX 5090 32GB

Bildgenerierung (FLUX)

RTX 3090 24GB

RTX 5090 32GB

A100 80GB

Videogenerierung

RTX 4090 24GB

RTX 5090 32GB

A100 80GB

Modelltraining

A100 40GB

A100 80GB

H100 80GB

Consumer-GPUs

NVIDIA RTX 3060 12GB

Am besten geeignet für: Budget-AI, SD 1.5, kleine LLMs

Spezifikation
Wert

VRAM

12GB GDDR6

Speicherbandbreite

360 GB/s

FP16-Leistung

12,7 TFLOPS

Tensor-Cores

112 (3. Gen.)

TDP

170W

~Preis/Stunde

$0.02-0.04

Fähigkeiten:

  • ✅ Ollama mit 7B-Modellen (Q4)

  • ✅ Stable Diffusion 1.5 (512x512)

  • ✅ SDXL (768x768, langsam)

  • ⚠️ FLUX schnell (mit CPU-Auslagerung)

  • ❌ Große Modelle (>13B)

  • ❌ Videogenerierung


NVIDIA RTX 3070/3070 Ti 8GB

Am besten geeignet für: SD 1.5, leichte Aufgaben

Spezifikation
Wert

VRAM

8GB GDDR6X

Speicherbandbreite

448-608 GB/s

FP16-Leistung

20,3 TFLOPS

Tensor-Cores

184 (3. Gen.)

TDP

220-290W

~Preis/Stunde

$0.02-0.04

Fähigkeiten:

  • ✅ Ollama mit 7B-Modellen (Q4)

  • ✅ Stable Diffusion 1.5 (512x512)

  • ⚠️ SDXL (nur niedrige Auflösung)

  • ❌ FLUX (unzureichender VRAM)

  • ❌ Modelle >7B

  • ❌ Videogenerierung


NVIDIA RTX 3080/3080 Ti 10-12GB

Am besten geeignet für: Allgemeine KI-Aufgaben, guter Ausgleich

Spezifikation
Wert

VRAM

10-12GB GDDR6X

Speicherbandbreite

760-912 GB/s

FP16-Leistung

29,8-34,1 TFLOPS

Tensor-Cores

272-320 (3. Gen.)

TDP

320-350W

~Preis/Stunde

$0.04-0.06

Fähigkeiten:

  • ✅ Ollama mit 13B-Modellen

  • ✅ Stable Diffusion 1.5/2.1

  • ✅ SDXL (1024x1024)

  • ⚠️ FLUX schnell (mit Auslagerung)

  • ❌ Große Modelle (>13B)

  • ❌ Videogenerierung


NVIDIA RTX 3090/3090 Ti 24GB

Am besten geeignet für: SDXL, 13B-30B LLMs, ControlNet

Spezifikation
Wert

VRAM

24GB GDDR6X

Speicherbandbreite

936 GB/s

FP16-Leistung

35,6 TFLOPS

Tensor-Cores

328 (3. Gen.)

TDP

350-450W

~Preis/Stunde

$0.05-0.08

Fähigkeiten:

  • ✅ Ollama mit 30B-Modellen

  • ✅ vLLM mit 13B-Modellen

  • ✅ Alle Stable Diffusion-Modelle

  • ✅ SDXL + ControlNet

  • ✅ FLUX schnell (1024x1024)

  • ⚠️ FLUX dev (mit Auslagerung)

  • ⚠️ Video (kurze Clips)


NVIDIA RTX 4070 Ti 12GB

Am besten geeignet für: Schnelles SD 1.5, effiziente Inferenz

Spezifikation
Wert

VRAM

12GB GDDR6X

Speicherbandbreite

504 GB/s

FP16-Leistung

40,1 TFLOPS

Tensor-Cores

184 (4. Gen.)

TDP

285W

~Preis/Stunde

$0.04-0.06

Fähigkeiten:

  • ✅ Ollama mit 7B-Modellen (schnell)

  • ✅ Stable Diffusion 1.5 (sehr schnell)

  • ✅ SDXL (768x768)

  • ⚠️ FLUX schnell (begrenzte Auflösung)

  • ❌ Große Modelle (>13B)

  • ❌ Videogenerierung


NVIDIA RTX 4080 16GB

Am besten geeignet für: SDXL-Produktion, 13B-LLMs

Spezifikation
Wert

VRAM

16GB GDDR6X

Speicherbandbreite

717 GB/s

FP16-Leistung

48,7 TFLOPS

Tensor-Cores

304 (4. Gen.)

TDP

320W

~Preis/Stunde

$0.06-0.09

Fähigkeiten:

  • ✅ Ollama mit 13B-Modellen (schnell)

  • ✅ vLLM mit 7B-Modellen

  • ✅ Alle Stable Diffusion-Modelle

  • ✅ SDXL + ControlNet

  • ✅ FLUX schnell (1024x1024)

  • ⚠️ FLUX dev (begrenzt)

  • ⚠️ Kurze Videoclips


NVIDIA RTX 4090 24GB

Am besten geeignet für: High-End-Consumer-Leistung, FLUX, Video

Spezifikation
Wert

VRAM

24GB GDDR6X

Speicherbandbreite

1008 GB/s

FP16-Leistung

82,6 TFLOPS

Tensor-Cores

512 (4. Gen.)

TDP

450W

~Preis/Stunde

$0.08-0.12

Fähigkeiten:

  • ✅ Ollama mit 30B-Modellen (schnell)

  • ✅ vLLM mit 13B-Modellen

  • ✅ Alle Bildgenerierungsmodelle

  • ✅ FLUX dev (1024x1024)

  • ✅ Videogenerierung (kurz)

  • ✅ AnimateDiff

  • ⚠️ 70B-Modelle (nur Q4)


NVIDIA RTX 5080 16GB (Neu — Feb 2025)

Am besten geeignet für: Schnelles SDXL/FLUX, 13B-30B LLMs, leistungsfähige Mittelklasse

Spezifikation
Wert

VRAM

16GB GDDR7

Speicherbandbreite

960 GB/s

FP16-Leistung

~80 TFLOPS

Tensor-Cores

336 (5. Gen.)

TDP

360W

~Clore.ai-Preis/Stunde

$1.50-2.00

Fähigkeiten:

  • ✅ Ollama mit 13B-Modellen (schnell)

  • ✅ vLLM mit 13B-Modellen

  • ✅ Alle Stable Diffusion-Modelle

  • ✅ SDXL + ControlNet (sehr schnell)

  • ✅ FLUX schnell/dev (1024x1024)

  • ✅ Kurze Videoclips

  • ⚠️ 30B-Modelle (nur Q4)

  • ❌ 70B-Modelle


NVIDIA RTX 5090 32GB (Flaggschiff — Feb 2025)

Am besten geeignet für: Maximale Consumer-Leistung, 70B-Modelle, hochauflösende Videogenerierung

Spezifikation
Wert

VRAM

32GB GDDR7

Speicherbandbreite

1792 GB/s

FP16-Leistung

~120 TFLOPS

Tensor-Cores

680 (5. Gen.)

TDP

575W

~Clore.ai-Preis/Stunde

$3.00-4.00

Fähigkeiten:

  • ✅ Ollama mit 70B-Modellen (Q4, schnell)

  • ✅ vLLM mit 30B-Modellen

  • ✅ Alle Bildgenerierungsmodelle

  • ✅ FLUX dev (1536x1536)

  • ✅ Videogenerierung (längere Clips)

  • ✅ AnimateDiff + ControlNet

  • ✅ Modelltraining (LoRA, kleine Fine-Tunes)

  • ✅ DeepSeek-R1 32B Distill (FP16)

Professionelle/Datenzentrum-GPUs

NVIDIA A100 40GB

Am besten geeignet für: Produktions-LLMs, Training, große Modelle

Spezifikation
Wert

VRAM

40GB HBM2e

Speicherbandbreite

1555 GB/s

FP16-Leistung

77,97 TFLOPS

Tensor-Cores

432 (3. Gen.)

TDP

400W

~Preis/Stunde

$0.15-0.20

Fähigkeiten:

  • ✅ Ollama mit 70B-Modellen (Q4)

  • ✅ vLLM Produktions-Serving

  • ✅ Alle Bildgenerierungen

  • ✅ FLUX dev (hohe Qualität)

  • ✅ Videogenerierung

  • ✅ Modell-Fine-Tuning

  • ⚠️ 70B FP16 (knapp)


NVIDIA A100 80GB

Am besten geeignet für: 70B+-Modelle, Video, Produktions-Workloads

Spezifikation
Wert

VRAM

80GB HBM2e

Speicherbandbreite

2039 GB/s

FP16-Leistung

77,97 TFLOPS

Tensor-Cores

432 (3. Gen.)

TDP

400W

~Preis/Stunde

$0.20-0.30

Fähigkeiten:

  • ✅ Alle LLMs bis 70B (FP16)

  • ✅ vLLM Hochdurchsatz-Serving

  • ✅ Alle Bildgenerierungen

  • ✅ Lange Videogenerierung

  • ✅ Modelltraining

  • ✅ DeepSeek-V3 (teilweise)

  • ⚠️ 100B+-Modelle


NVIDIA H100 80GB

Am besten geeignet für: Maximale Leistung, größte Modelle

Spezifikation
Wert

VRAM

80GB HBM3

Speicherbandbreite

3350 GB/s

FP16-Leistung

267 TFLOPS

Tensor-Cores

528 (4. Gen.)

TDP

700W

~Preis/Stunde

$0.40-0.60

Fähigkeiten:

  • ✅ Alle Modelle mit maximaler Geschwindigkeit

  • ✅ 100B+-Parameter-Modelle

  • ✅ Multi-Model-Serving

  • ✅ Großflächiges Training

  • ✅ Echtzeit-Videogenerierung

  • ✅ DeepSeek-V3 (671B)

Leistungsvergleiche

LLM-Inferenz (Token/Sekunde)

GPU
Llama 3 8B
Llama 3 70B
Mixtral 8x7B
Clore.ai $/Std.

RTX 3060 12GB

25

-

-

$0.02-0.04

RTX 3090 24GB

45

8*

20*

$0.15-0.25

RTX 4090 24GB

80

15*

35*

$0.35-0.55

RTX 5080 16GB

95

-

40*

$1.50-2.00

RTX 5090 32GB

150

30*

65*

$3.00-4.00

A100 40GB

100

25

45

$0.80-1.20

A100 80GB

110

40

55

$1.20-1.80

H100 80GB

180

70

90

$2.50-3.50

*Mit Quantisierung (Q4/Q8)

Bildgenerierungsgeschwindigkeit

GPU
SD 1.5 (512)
SDXL (1024)
FLUX schnell
Clore.ai $/Std.

RTX 3060 12GB

4 Sek

15 Sek

25 Sek*

$0.02-0.04

RTX 3090 24GB

2 Sek

7 Sek

12 Sek

$0.15-0.25

RTX 4090 24GB

1 Sek

3 Sek

5 Sek

$0.35-0.55

RTX 5080 16GB

0,8 Sek

2,5 Sek

4 Sek

$1.50-2.00

RTX 5090 32GB

0,6 Sek

1,8 Sek

3 Sek

$3.00-4.00

A100 40GB

1,5 Sek

4 Sek

6 Sek

$0.80-1.20

A100 80GB

1,5 Sek

4 Sek

5 Sek

$1.20-1.80

*Mit CPU-Auslagerung, geringere Auflösung

Videogenerierung (5 Sek. Clip)

GPU
SVD
Wan2.1
Hunyuan

RTX 3090 24GB

3 Min.

5 Min*

-

RTX 4090 24GB

1,5 Min

3 Min.

8 Min*

RTX 5090 32GB

1 Min

2 Min

5 Min

A100 40GB

1 Min

2 Min

5 Min

A100 80GB

45 Sek

1,5 Min

3 Min.

*Begrenzte Auflösung

Preis-/Leistungsverhältnis

Bestes Preis-Leistungs-Verhältnis nach Aufgabe

Chat/LLM (7B-13B-Modelle):

  1. 🥇 RTX 3090 24GB - Bestes Preis/Leistungs-Verhältnis

  2. 🥈 RTX 3060 12GB - Niedrigste Kosten

  3. 🥉 RTX 4090 24GB - Schnellste

Bildgenerierung (SDXL/FLUX):

  1. 🥇 RTX 3090 24GB - Großer Ausgleich

  2. 🥈 RTX 4090 24GB - 2x schneller

  3. 🥉 A100 40GB - Produktionsstabilität

Große Modelle (70B+):

  1. 🥇 A100 40GB - Bestes Preis-Leistungs-Verhältnis für 70B

  2. 🥈 A100 80GB - Volle Präzision

  3. 🥉 RTX 4090 24GB - Budget-Option (nur Q4)

Videogenerierung:

  1. 🥇 A100 40GB - Guter Ausgleich

  2. 🥈 RTX 4090 24GB - Consumer-Option

  3. 🥉 A100 80GB - Längste Clips

Modelltraining:

  1. 🥇 A100 40GB - Standardwahl

  2. 🥈 A100 80GB - Große Modelle

  3. 🥉 RTX 4090 24GB - Kleine Modelle/LoRA

Multi-GPU-Konfigurationen

Bei einigen Aufgaben sind mehrere GPUs vorteilhaft:

Konfiguration
Einsatzgebiet
Gesamter VRAM

2x RTX 3090

70B Inferenz

48GB

2x RTX 4090

Schnelles 70B, Training

48GB

2x RTX 5090

70B FP16, schnelles Training

64GB

4x RTX 5090

100B+-Modelle

128GB

4x A100 40GB

100B+-Modelle

160GB

8x A100 80GB

DeepSeek-V3, Llama 405B

640GB

Auswahl Ihrer GPU

Entscheidungsflussdiagramm

Tipps zum Geldsparen

  1. Verwenden Sie Spot-Aufträge - 30-50% günstiger als On-Demand

  2. Klein anfangen - Testen Sie zuerst auf günstigeren GPUs

  3. Modelle quantisieren - Q4/Q8 passt größere Modelle in weniger VRAM

  4. Batch-Verarbeitung - Verarbeiten Sie mehrere Anfragen gleichzeitig

  5. Außerhalb der Spitzenzeiten - Bessere Verfügbarkeit und manchmal niedrigere Preise

Nächste Schritte

Zuletzt aktualisiert

War das hilfreich?