> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-de/erste-schritte/gpu-comparison.md).

# GPU-Vergleich

Vollständiger Vergleich der auf CLORE.AI verfügbaren GPUs für KI-Workloads.

{% hint style="success" %}
Finde die richtige GPU für deine Aufgabe auf [CLORE.AI Marktplatz](https://clore.ai/marketplace).
{% endhint %}

## Schnelle Empfehlung

| Deine Aufgabe            | Budget-Wahl   | Bestes Preis-Leistungs-Verhältnis | Maximale Leistung |
| ------------------------ | ------------- | --------------------------------- | ----------------- |
| Chat mit KI (7B)         | RTX 3060 12GB | RTX 3090 24GB                     | RTX 5090 32GB     |
| Chat mit KI (70B)        | RTX 3090 24GB | RTX 5090 32GB                     | A100 80GB         |
| Bildgenerierung (SD 1.5) | RTX 3060 12GB | RTX 3090 24GB                     | RTX 5090 32GB     |
| Bildgenerierung (SDXL)   | RTX 3090 24GB | RTX 4090 24GB                     | RTX 5090 32GB     |
| Bildgenerierung (FLUX)   | RTX 3090 24GB | RTX 5090 32GB                     | A100 80GB         |
| Videogenerierung         | RTX 4090 24GB | RTX 5090 32GB                     | A100 80GB         |
| Modelltraining           | A100 40GB     | A100 80GB                         | H100 80GB         |

## Consumer-GPUs

### NVIDIA RTX 3060 12GB

**Am besten für:** Budget-KI, SD 1.5, kleine LLMs

| Spezifikation      | Wert                |
| ------------------ | ------------------- |
| VRAM               | 12GB GDDR6          |
| Speicherbandbreite | 360 GB/s            |
| FP16-Leistung      | 12,7 TFLOPS         |
| Tensor Cores       | 112 (3. Generation) |
| TDP                | 170W                |
| \~Preis/Stunde     | $0.02-0.04          |

**Fähigkeiten:**

* ✅ Ollama mit 7B-Modellen (Q4)
* ✅ Stable Diffusion 1.5 (512x512)
* ✅ SDXL (768x768, langsam)
* ⚠️ FLUX schnell (mit CPU-Offload)
* ❌ Große Modelle (>13B)
* ❌ Videogenerierung

***

### NVIDIA RTX 3070/3070 Ti 8GB

**Am besten für:** SD 1.5, leichte Aufgaben

| Spezifikation      | Wert                |
| ------------------ | ------------------- |
| VRAM               | 8GB GDDR6X          |
| Speicherbandbreite | 448–608 GB/s        |
| FP16-Leistung      | 20,3 TFLOPS         |
| Tensor Cores       | 184 (3. Generation) |
| TDP                | 220–290W            |
| \~Preis/Stunde     | $0.02-0.04          |

**Fähigkeiten:**

* ✅ Ollama mit 7B-Modellen (Q4)
* ✅ Stable Diffusion 1.5 (512x512)
* ⚠️ SDXL (nur niedrige Auflösung)
* ❌ FLUX (unzureichender VRAM)
* ❌ Modelle >7B
* ❌ Videogenerierung

***

### NVIDIA RTX 3080/3080 Ti 10-12GB

**Am besten für:** Allgemeine KI-Aufgaben, gutes Gleichgewicht

| Spezifikation      | Wert                    |
| ------------------ | ----------------------- |
| VRAM               | 10–12GB GDDR6X          |
| Speicherbandbreite | 760–912 GB/s            |
| FP16-Leistung      | 29,8–34,1 TFLOPS        |
| Tensor Cores       | 272–320 (3. Generation) |
| TDP                | 320–350W                |
| \~Preis/Stunde     | $0.04-0.06              |

**Fähigkeiten:**

* ✅ Ollama mit 13B-Modellen
* ✅ Stable Diffusion 1.5/2.1
* ✅ SDXL (1024x1024)
* ⚠️ FLUX schnell (mit Offload)
* ❌ Große Modelle (>13B)
* ❌ Videogenerierung

***

### NVIDIA RTX 3090/3090 Ti 24GB

**Am besten für:** SDXL, 13B–30B LLMs, ControlNet

| Spezifikation      | Wert                |
| ------------------ | ------------------- |
| VRAM               | 24GB GDDR6X         |
| Speicherbandbreite | 936 GB/s            |
| FP16-Leistung      | 35,6 TFLOPS         |
| Tensor Cores       | 328 (3. Generation) |
| TDP                | 350–450W            |
| \~Preis/Stunde     | $0.05-0.08          |

**Fähigkeiten:**

* ✅ Ollama mit 30B-Modellen
* ✅ vLLM mit 13B-Modellen
* ✅ Alle Stable Diffusion-Modelle
* ✅ SDXL + ControlNet
* ✅ FLUX schnell (1024x1024)
* ⚠️ FLUX dev (mit Offload)
* ⚠️ Video (kurze Clips)

***

### NVIDIA RTX 4070 Ti 12GB

**Am besten für:** Schnelles SD 1.5, effiziente Inferenz

| Spezifikation      | Wert                |
| ------------------ | ------------------- |
| VRAM               | 12GB GDDR6X         |
| Speicherbandbreite | 504 GB/s            |
| FP16-Leistung      | 40,1 TFLOPS         |
| Tensor Cores       | 184 (4. Generation) |
| TDP                | 285W                |
| \~Preis/Stunde     | $0.04-0.06          |

**Fähigkeiten:**

* ✅ Ollama mit 7B-Modellen (schnell)
* ✅ Stable Diffusion 1.5 (sehr schnell)
* ✅ SDXL (768x768)
* ⚠️ FLUX schnell (begrenzte Auflösung)
* ❌ Große Modelle (>13B)
* ❌ Videogenerierung

***

### NVIDIA RTX 4080 16GB

**Am besten für:** SDXL-Produktion, 13B-LLMs

| Spezifikation      | Wert                |
| ------------------ | ------------------- |
| VRAM               | 16GB GDDR6X         |
| Speicherbandbreite | 717 GB/s            |
| FP16-Leistung      | 48,7 TFLOPS         |
| Tensor Cores       | 304 (4. Generation) |
| TDP                | 320W                |
| \~Preis/Stunde     | $0.06-0.09          |

**Fähigkeiten:**

* ✅ Ollama mit 13B-Modellen (schnell)
* ✅ vLLM mit 7B-Modellen
* ✅ Alle Stable Diffusion-Modelle
* ✅ SDXL + ControlNet
* ✅ FLUX schnell (1024x1024)
* ⚠️ FLUX dev (begrenzt)
* ⚠️ Kurze Videoclips

***

### NVIDIA RTX 4090 24GB

**Am besten für:** High-End-Consumer-Leistung, FLUX, Video

| Spezifikation      | Wert                |
| ------------------ | ------------------- |
| VRAM               | 24GB GDDR6X         |
| Speicherbandbreite | 1008 GB/s           |
| FP16-Leistung      | 82,6 TFLOPS         |
| Tensor Cores       | 512 (4. Generation) |
| TDP                | 450W                |
| \~Preis/Stunde     | $0.08-0.12          |

**Fähigkeiten:**

* ✅ Ollama mit 30B-Modellen (schnell)
* ✅ vLLM mit 13B-Modellen
* ✅ Alle Bildgenerierungsmodelle
* ✅ FLUX dev (1024x1024)
* ✅ Videogenerierung (kurz)
* ✅ AnimateDiff
* ⚠️ 70B-Modelle (nur Q4)

***

### NVIDIA RTX 5080 16GB *(Neu — Feb 2025)*

**Am besten für:** Schnelles SDXL/FLUX, 13B–30B LLMs, leistungsstarke Mittelklasse

| Spezifikation           | Wert                |
| ----------------------- | ------------------- |
| VRAM                    | 16GB GDDR7          |
| Speicherbandbreite      | 960 GB/s            |
| FP16-Leistung           | \~80 TFLOPS         |
| Tensor Cores            | 336 (5. Generation) |
| TDP                     | 360W                |
| \~Clore.ai Preis/Stunde | $1.50-2.00          |

**Fähigkeiten:**

* ✅ Ollama mit 13B-Modellen (schnell)
* ✅ vLLM mit 13B-Modellen
* ✅ Alle Stable Diffusion-Modelle
* ✅ SDXL + ControlNet (sehr schnell)
* ✅ FLUX schnell/dev (1024x1024)
* ✅ Kurze Videoclips
* ⚠️ 30B-Modelle (nur Q4)
* ❌ 70B-Modelle

***

### NVIDIA RTX 5090 32GB *(Flaggschiff — Feb 2025)*

**Am besten für:** Maximale Consumer-Leistung, 70B-Modelle, hochaufgelöste Videogenerierung

| Spezifikation           | Wert                |
| ----------------------- | ------------------- |
| VRAM                    | 32GB GDDR7          |
| Speicherbandbreite      | 1792 GB/s           |
| FP16-Leistung           | \~120 TFLOPS        |
| Tensor Cores            | 680 (5. Generation) |
| TDP                     | 575W                |
| \~Clore.ai Preis/Stunde | $3.00-4.00          |

**Fähigkeiten:**

* ✅ Ollama mit 70B-Modellen (Q4, schnell)
* ✅ vLLM mit 30B-Modellen
* ✅ Alle Bildgenerierungsmodelle
* ✅ FLUX dev (1536x1536)
* ✅ Videogenerierung (längere Clips)
* ✅ AnimateDiff + ControlNet
* ✅ Modelltraining (LoRA, kleine Feinabstimmungen)
* ✅ DeepSeek-R1 32B Distill (FP16)

## Professionelle/Datacenter-GPUs

### NVIDIA A100 40GB

**Am besten für:** Produktions-LLMs, Training, große Modelle

| Spezifikation      | Wert                |
| ------------------ | ------------------- |
| VRAM               | 40GB HBM2e          |
| Speicherbandbreite | 1555 GB/s           |
| FP16-Leistung      | 77,97 TFLOPS        |
| Tensor Cores       | 432 (3. Generation) |
| TDP                | 400W                |
| \~Preis/Stunde     | $0.15-0.20          |

**Fähigkeiten:**

* ✅ Ollama mit 70B-Modellen (Q4)
* ✅ vLLM Produktions-Serving
* ✅ Alle Bildgenerierungen
* ✅ FLUX dev (hohe Qualität)
* ✅ Videogenerierung
* ✅ Modell-Finetuning
* ⚠️ 70B FP16 (eng)

***

### NVIDIA A100 80GB

**Am besten für:** 70B+-Modelle, Video, Produktions-Workloads

| Spezifikation      | Wert                |
| ------------------ | ------------------- |
| VRAM               | 80GB HBM2e          |
| Speicherbandbreite | 2039 GB/s           |
| FP16-Leistung      | 77,97 TFLOPS        |
| Tensor Cores       | 432 (3. Generation) |
| TDP                | 400W                |
| \~Preis/Stunde     | $0.20-0.30          |

**Fähigkeiten:**

* ✅ Alle LLMs bis 70B (FP16)
* ✅ vLLM Hochdurchsatz-Serving
* ✅ Alle Bildgenerierungen
* ✅ Lange Videogenerierung
* ✅ Modelltraining
* ✅ DeepSeek-V3 (teilweise)
* ⚠️ 100B+-Modelle

***

### NVIDIA H100 80GB

**Am besten für:** Maximale Leistung, größte Modelle

| Spezifikation      | Wert                |
| ------------------ | ------------------- |
| VRAM               | 80GB HBM3           |
| Speicherbandbreite | 3350 GB/s           |
| FP16-Leistung      | 267 TFLOPS          |
| Tensor Cores       | 528 (4. Generation) |
| TDP                | 700W                |
| \~Preis/Stunde     | $0.40-0.60          |

**Fähigkeiten:**

* ✅ Alle Modelle mit maximaler Geschwindigkeit
* ✅ 100B+-Parameter-Modelle
* ✅ Multi-Model-Serving
* ✅ Großskaliges Training
* ✅ Echtzeit-Videogenerierung
* ✅ DeepSeek-V3 (671B)

## Leistungsvergleiche

### LLM-Inferenz (Token/Sekunde)

| GPU           | Llama 3 8B | Llama 3 70B | Mixtral 8x7B | Clore.ai $/Std. |
| ------------- | ---------- | ----------- | ------------ | --------------- |
| RTX 3060 12GB | 25         | -           | -            | $0.02-0.04      |
| RTX 3090 24GB | 45         | 8\*         | 20\*         | $0.15-0.25      |
| RTX 4090 24GB | 80         | 15\*        | 35\*         | $0.35-0.55      |
| RTX 5080 16GB | 95         | -           | 40\*         | $1.50-2.00      |
| RTX 5090 32GB | 150        | 30\*        | 65\*         | $3.00-4.00      |
| A100 40GB     | 100        | 25          | 45           | $0.80-1.20      |
| A100 80GB     | 110        | 40          | 55           | $1.20-1.80      |
| H100 80GB     | 180        | 70          | 90           | $2.50-3.50      |

\*Mit Quantisierung (Q4/Q8)

### Geschwindigkeit der Bildgenerierung

| GPU           | SD 1.5 (512) | SDXL (1024) | FLUX schnell | Clore.ai $/Std. |
| ------------- | ------------ | ----------- | ------------ | --------------- |
| RTX 3060 12GB | 4 Sek.       | 15 Sek.     | 25 Sek.\*    | $0.02-0.04      |
| RTX 3090 24GB | 2 Sek.       | 7 Sek.      | 12 Sek.      | $0.15-0.25      |
| RTX 4090 24GB | 1 Sek.       | 3 Sek.      | 5 Sek.       | $0.35-0.55      |
| RTX 5080 16GB | 0,8 Sek.     | 2,5 Sek.    | 4 Sek.       | $1.50-2.00      |
| RTX 5090 32GB | 0,6 Sek.     | 1,8 Sek.    | 3 Sek.       | $3.00-4.00      |
| A100 40GB     | 1,5 Sek.     | 4 Sek.      | 6 Sek.       | $0.80-1.20      |
| A100 80GB     | 1,5 Sek.     | 4 Sek.      | 5 Sek.       | $1.20-1.80      |

\*Mit CPU-Offload, geringere Auflösung

### Videogenerierung (5 Sek. Clip)

| GPU           | SVD      | Wan2.1   | Hunyuan  |
| ------------- | -------- | -------- | -------- |
| RTX 3090 24GB | 3 Min.   | 5 Min.\* | -        |
| RTX 4090 24GB | 1,5 Min. | 3 Min.   | 8 Min.\* |
| RTX 5090 32GB | 1 Min.   | 2 Min.   | 5 Min.   |
| A100 40GB     | 1 Min.   | 2 Min.   | 5 Min.   |
| A100 80GB     | 45 Sek.  | 1,5 Min. | 3 Min.   |

\*Begrenzte Auflösung

## Preis-Leistungs-Verhältnis

### Bestes Preis-Leistungs-Verhältnis nach Aufgabe

**Chat/LLM (7B–13B Modelle):**

1. 🥇 RTX 3090 24GB - Bestes Preis/Leistungsverhältnis
2. 🥈 RTX 3060 12GB - Niedrigste Kosten
3. 🥉 RTX 4090 24GB - Schnellste

**Bildgenerierung (SDXL/FLUX):**

1. 🥇 RTX 3090 24GB - Großartiges Gleichgewicht
2. 🥈 RTX 4090 24GB - 2x schneller
3. 🥉 A100 40GB - Produktionsstabilität

**Große Modelle (70B+):**

1. 🥇 A100 40GB - Bestes Preis-Leistungs-Verhältnis für 70B
2. 🥈 A100 80GB - Volle Präzision
3. 🥉 RTX 4090 24GB - Budget-Option (nur Q4)

**Videogenerierung:**

1. 🥇 A100 40GB - Gutes Gleichgewicht
2. 🥈 RTX 4090 24GB - Consumer-Option
3. 🥉 A100 80GB - Längste Clips

**Modelltraining:**

1. 🥇 A100 40GB - Standardwahl
2. 🥈 A100 80GB - Große Modelle
3. 🥉 RTX 4090 24GB - Kleine Modelle/LoRA

## Multi-GPU-Konfigurationen

Einige Aufgaben profitieren von mehreren GPUs:

| Konfiguration | Anwendungsfall               | Gesamter VRAM |
| ------------- | ---------------------------- | ------------- |
| 2x RTX 3090   | 70B-Inferenz                 | 48GB          |
| 2x RTX 4090   | Schnelles 70B, Training      | 48GB          |
| 2x RTX 5090   | 70B FP16, schnelles Training | 64GB          |
| 4x RTX 5090   | 100B+ Modelle                | 128GB         |
| 4x A100 40GB  | 100B+ Modelle                | 160GB         |
| 8x A100 80GB  | DeepSeek-V3, Llama 405B      | 640GB         |

## Wähle deine GPU

### Entscheidungsflussdiagramm

```
Was ist deine Hauptaufgabe?
│
├─ Chat/LLM
│  ├─ Modellgröße?
│  │  ├─ ≤7B → RTX 3060 (0,15–0,30 $/Tag)
│  │  ├─ 7B–30B → RTX 3090 (0,30–1,00 $/Tag)
│  │  ├─ 30B–70B → A100 40GB (1,50–3,00 $/Tag)
│  │  └─ 70B+ → A100 80GB (2,00–4,00 $/Tag)
│
├─ Bildgenerierung
│  ├─ Modell?
│  │  ├─ SD 1.5 → RTX 3060 (0,15–0,30 $/Tag)
│  │  ├─ SDXL → RTX 3090 (0,30–1,00 $/Tag)
│  │  └─ FLUX → RTX 4090 (0,50–2,00 $/Tag)
│
├─ Videogenerierung
│  ├─ Länge?
│  │  ├─ Kurz (2–5 Sek.) → RTX 4090 (0,50–2,00 $/Tag)
│  │  └─ Länger → A100 40GB+ (1,50–3,00+ $/Tag)
│
└─ Training
   ├─ LoRA/klein → RTX 4090 (0,50–2,00 $/Tag)
   └─ Vollständiges Fine-Tune → A100 40GB+ (1,50–3,00+ $/Tag)
```

## Tipps zum Geldsparen

1. **Verwende Spot-Bestellungen** - 30–50% günstiger als On-Demand
2. **Klein anfangen** - Zuerst auf günstigeren GPUs testen
3. **Modelle quantisieren** - Q4/Q8 bringt größere Modelle in weniger VRAM unter
4. **Batch-Verarbeitung** - Mehrere Anfragen gleichzeitig verarbeiten
5. **Nebenzeiten nutzen** - Bessere Verfügbarkeit und manchmal niedrigere Preise

> 📚 Siehe auch: [Top 10 der günstigsten GPUs für AI-Training im Jahr 2025](https://blog.clore.ai/top-10-cheapest-gpus-for-ai-training/) | [Beste GPU für AI-Training — Detaillierter Leitfaden](https://blog.clore.ai/best-gpu-for-ai-training/)

## Nächste Schritte

* [Kompatibilitätsmatrix für Modelle](/guides/guides_v2-de/erste-schritte/model-compatibility.md) - Welche Modelle auf welchen GPUs laufen
* [Katalog von Docker-Images](/guides/guides_v2-de/erste-schritte/docker-images.md) - Einsatzfertige Images
* [Quickstart-Anleitung](/guides/guides_v2-de/quickstart.md) - Starte in 5 Minuten


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-de/erste-schritte/gpu-comparison.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
