# Modellkompatibilität

Vollständiger Leitfaden, welche KI-Modelle auf welchen GPUs auf CLORE.AI laufen.

{% hint style="success" %}
Finde GPUs mit dem richtigen VRAM auf [CLORE.AI Marketplace](https://clore.ai/marketplace).
{% endhint %}

## Schnellreferenz

### Sprachmodelle (LLM)

| Modell                  | Parameter | Min. VRAM  | Empfohlen              | Quantisierung             |
| ----------------------- | --------- | ---------- | ---------------------- | ------------------------- |
| Llama 3.2               | 1B        | 2GB        | 4GB                    | Q4, Q8, FP16              |
| Llama 3.2               | 3B        | 4GB        | 6GB                    | Q4, Q8, FP16              |
| Llama 3.1/3             | 8B        | 6GB        | 12GB                   | Q4, Q8, FP16              |
| Mistral                 | 7B        | 6GB        | 12GB                   | Q4, Q8, FP16              |
| Qwen 2.5                | 7B        | 6GB        | 12GB                   | Q4, Q8, FP16              |
| Qwen 2.5                | 14B       | 12GB       | 16GB                   | Q4, Q8                    |
| Qwen 2.5                | 32B       | 20GB       | 24GB                   | Q4, Q8                    |
| Llama 3.1               | 70B       | 40GB       | 48GB                   | Q4, Q8                    |
| Qwen 2.5                | 72B       | 48GB       | 80GB                   | Q4, Q8                    |
| Mixtral                 | 8x7B      | 24GB       | 48GB                   | Q4                        |
| DeepSeek-V3             | 671B      | 320GB+     | 640GB                  | FP8                       |
| **DeepSeek-R1**         | **671B**  | **320GB+** | **8x H100**            | **FP8, Reasoning-Modell** |
| **DeepSeek-R1-Distill** | **32B**   | **20GB**   | **2x A100 / RTX 5090** | **Q4/Q8**                 |

### Bildgenerierungsmodelle

| Modell               | Min. VRAM | Empfohlen           | Hinweise                                 |
| -------------------- | --------- | ------------------- | ---------------------------------------- |
| SD 1.5               | 4GB       | 8GB                 | 512x512 nativ                            |
| SD 2.1               | 6GB       | 8GB                 | 768x768 nativ                            |
| SDXL                 | 8GB       | 12GB                | 1024x1024 nativ                          |
| SDXL Turbo           | 8GB       | 12GB                | 1–4 Schritte                             |
| **SD3.5 Large (8B)** | **16GB**  | **24GB**            | **1024x1024, fortgeschrittene Qualität** |
| FLUX.1 schnell       | 12GB      | 16GB                | 4 Schritte, schnell                      |
| FLUX.1 dev           | 16GB      | 24GB                | 20–50 Schritte                           |
| **TRELLIS**          | **16GB**  | **24GB (RTX 4090)** | **3D-Generierung aus Bildern**           |

### Videogenerierungsmodelle

| Modell                 | Min. VRAM | Empfohlen                | Ausgabe                           |
| ---------------------- | --------- | ------------------------ | --------------------------------- |
| Stable Video Diffusion | 16GB      | 24GB                     | 4 Sek., 576x1024                  |
| AnimateDiff            | 12GB      | 16GB                     | 2–4 Sek.                          |
| **LTX-Video**          | **16GB**  | **24GB (RTX 4090/3090)** | **5 Sek., 768x512, sehr schnell** |
| Wan2.1                 | 24GB      | 40GB                     | 5 Sek., 480p–720p                 |
| Hunyuan Video          | 40GB      | 80GB                     | 5 Sek., 720p                      |
| OpenSora               | 24GB      | 40GB                     | Variabel                          |

### Audio-Modelle

| Modell           | Min. VRAM | Empfohlen | Aufgabe          |
| ---------------- | --------- | --------- | ---------------- |
| Whisper tiny     | 1GB       | 2GB       | Transkription    |
| Whisper base     | 1GB       | 2GB       | Transkription    |
| Whisper small    | 2GB       | 4GB       | Transkription    |
| Whisper medium   | 4GB       | 6GB       | Transkription    |
| Whisper large-v3 | 6GB       | 10GB      | Transkription    |
| Bark             | 8GB       | 12GB      | Text-zu-Sprache  |
| Stable Audio     | 8GB       | 12GB      | Musikgenerierung |

### Vision- & Vision-Language-Modelle

| Modell               | Min. VRAM | Empfohlen           | Aufgabe                   |
| -------------------- | --------- | ------------------- | ------------------------- |
| Llama 3.2 Vision 11B | 12GB      | 16GB                | Bildverstehen             |
| Llama 3.2 Vision 90B | 48GB      | 80GB                | Bildverstehen             |
| LLaVA 7B             | 8GB       | 12GB                | Visuelle QA               |
| LLaVA 13B            | 16GB      | 24GB                | Visuelle QA               |
| **Qwen2.5-VL 7B**    | **16GB**  | **24GB (RTX 4090)** | **Bild/Video/Doc OCR**    |
| **Qwen2.5-VL 72B**   | **48GB**  | **2x A100 80GB**    | **Maximale VL-Fähigkeit** |

### Fine-Tuning- & Training-Tools

| Tool / Methode       | Min. VRAM | Empfohlene GPU    | Aufgabe                                 |
| -------------------- | --------- | ----------------- | --------------------------------------- |
| **Unsloth QLoRA 7B** | **12GB**  | **RTX 3090 24GB** | **2× schnelleres QLoRA, geringer VRAM** |
| Unsloth QLoRA 13B    | 16GB      | RTX 4090 24GB     | Schnelles Fine-Tuning                   |
| LoRA (standard)      | 12GB      | RTX 3090          | Parameter-effizientes Fine-Tuning       |
| Full Fine-Tune 7B    | 40GB      | A100 40GB         | Maximale Trainingsqualität              |

***

## Detaillierte Kompatibilitätstabellen

### LLM nach GPU

| GPU              | Max. Modell (Q4) | Max. Modell (Q8) | Max. Modell (FP16) |
| ---------------- | ---------------- | ---------------- | ------------------ |
| RTX 3060 12GB    | 13B              | 7B               | 3B                 |
| RTX 3070 8GB     | 7B               | 3B               | 1B                 |
| RTX 3080 10GB    | 7B               | 7B               | 3B                 |
| RTX 3090 24GB    | 30B              | 13B              | 7B                 |
| RTX 4070 Ti 12GB | 13B              | 7B               | 3B                 |
| RTX 4080 16GB    | 14B              | 7B               | 7B                 |
| RTX 4090 24GB    | 30B              | 13B              | 7B                 |
| RTX 5090 32GB    | 70B              | 14B              | 13B                |
| A100 40GB        | 70B              | 30B              | 14B                |
| A100 80GB        | 70B              | 70B              | 30B                |
| H100 80GB        | 70B              | 70B              | 30B                |

### Bildgenerierung nach GPU

| GPU              | SD 1.5 | SDXL   | FLUX schnell | FLUX dev |
| ---------------- | ------ | ------ | ------------ | -------- |
| RTX 3060 12GB    | ✅ 512  | ✅ 768  | ⚠️ 512\*     | ❌        |
| RTX 3070 8GB     | ✅ 512  | ⚠️ 512 | ❌            | ❌        |
| RTX 3080 10GB    | ✅ 512  | ✅ 768  | ⚠️ 512\*     | ❌        |
| RTX 3090 24GB    | ✅ 768  | ✅ 1024 | ✅ 1024       | ⚠️ 768\* |
| RTX 4070 Ti 12GB | ✅ 512  | ✅ 768  | ⚠️ 512\*     | ❌        |
| RTX 4080 16GB    | ✅ 768  | ✅ 1024 | ✅ 768        | ⚠️ 512\* |
| RTX 4090 24GB    | ✅ 1024 | ✅ 1024 | ✅ 1024       | ✅ 1024   |
| RTX 5090 32GB    | ✅ 1024 | ✅ 1024 | ✅ 1536       | ✅ 1536   |
| A100 40GB        | ✅ 1024 | ✅ 1024 | ✅ 1024       | ✅ 1024   |
| A100 80GB        | ✅ 2048 | ✅ 2048 | ✅ 1536       | ✅ 1536   |

\*Mit CPU-Offload oder verringerter Batch-Größe

### Videogenerierung nach GPU

| GPU           | SVD    | AnimateDiff | Wan2.1  | Hunyuan |
| ------------- | ------ | ----------- | ------- | ------- |
| RTX 3060 12GB | ❌      | ⚠️ kurz     | ❌       | ❌       |
| RTX 3090 24GB | ✅ 2–4s | ✅           | ⚠️ 480p | ❌       |
| RTX 4090 24GB | ✅ 4s   | ✅           | ✅ 480p  | ⚠️ kurz |
| RTX 5090 32GB | ✅ 6s   | ✅           | ✅ 720p  | ✅ 5s    |
| A100 40GB     | ✅ 4s   | ✅           | ✅ 720p  | ✅ 5s    |
| A100 80GB     | ✅ 8s   | ✅           | ✅ 720p  | ✅ 10s   |

***

## Quantisierungsleitfaden

### Was ist Quantisierung?

Quantisierung reduziert die Modellpräzision, um weniger VRAM zu benötigen:

| Format   | Bits | VRAM-Reduktion | Qualitätsverlust |
| -------- | ---- | -------------- | ---------------- |
| FP32     | 32   | Basislinie     | Keine            |
| FP16     | 16   | 50%            | Minimal          |
| BF16     | 16   | 50%            | Minimal          |
| FP8      | 8    | 75%            | Klein            |
| Q8       | 8    | 75%            | Klein            |
| Q6\_K    | 6    | 81%            | Klein            |
| Q5\_K\_M | 5    | 84%            | Mäßig            |
| Q4\_K\_M | 4    | 87%            | Mäßig            |
| Q3\_K\_M | 3    | 91%            | Deutlich         |
| Q2\_K    | 2    | 94%            | Signifikant      |

### VRAM-Rechner

**Formel:** `VRAM (GB) ≈ Parameter (B) × Bytes pro Parameter`

| Modellgröße | FP16   | Q8    | Q4     |
| ----------- | ------ | ----- | ------ |
| 1B          | 2 GB   | 1 GB  | 0,5 GB |
| 3B          | 6 GB   | 3 GB  | 1,5 GB |
| 7B          | 14 GB  | 7 GB  | 3,5 GB |
| 8B          | 16 GB  | 8 GB  | 4 GB   |
| 13B         | 26 GB  | 13 GB | 6,5 GB |
| 14B         | 28 GB  | 14 GB | 7 GB   |
| 30B         | 60 GB  | 30 GB | 15 GB  |
| 32B         | 64 GB  | 32 GB | 16 GB  |
| 70B         | 140 GB | 70 GB | 35 GB  |
| 72B         | 144 GB | 72 GB | 36 GB  |

\*Ca. 20% für KV-Cache und Overhead hinzufügen

### Empfohlene Quantisierung nach Anwendungsfall

| Einsatzgebiet       | Empfohlen | Warum                                         |
| ------------------- | --------- | --------------------------------------------- |
| Chat/Allgemein      | Q4\_K\_M  | Gute Balance aus Geschwindigkeit und Qualität |
| Programmierung      | Q5\_K\_M+ | Bessere Genauigkeit für Code                  |
| Kreatives Schreiben | Q4\_K\_M  | Geschwindigkeit ist wichtiger                 |
| Analyse             | Q6\_K+    | Höhere Präzision erforderlich                 |
| Produktion          | FP16/BF16 | Maximale Qualität                             |

***

## Kontextlänge vs. VRAM

### Wie Kontext den VRAM beeinflusst

Jedes Modell hat ein Kontextfenster (max. Tokens). Längerer Kontext = mehr VRAM:

| Modell       | Standardkontext | Maximaler Kontext | VRAM pro 1K Tokens |
| ------------ | --------------- | ----------------- | ------------------ |
| Llama 3 8B   | 8K              | 128K              | \~0,3 GB           |
| Llama 3 70B  | 8K              | 128K              | \~0,5 GB           |
| Qwen 2.5 7B  | 8K              | 128K              | \~0,25 GB          |
| Mistral 7B   | 8K              | 32K               | \~0,25 GB          |
| Mixtral 8x7B | 32K             | 32K               | \~0,4 GB           |

### Kontext nach GPU (Llama 3 8B Q4)

| GPU           | Angenehmer Kontext | Maximaler Kontext |
| ------------- | ------------------ | ----------------- |
| RTX 3060 12GB | 16K                | 32K               |
| RTX 3090 24GB | 64K                | 96K               |
| RTX 4090 24GB | 64K                | 96K               |
| RTX 5090 32GB | 96K                | 128K              |
| A100 40GB     | 96K                | 128K              |
| A100 80GB     | 128K               | 128K              |

***

## Multi-GPU-Konfigurationen

### Tensor-Parallele Verarbeitung

Teile ein Modell über mehrere GPUs auf:

| Konfiguration | Gesamter VRAM | Max. Modell (FP16) |
| ------------- | ------------- | ------------------ |
| 2x RTX 3090   | 48GB          | 30B                |
| 2x RTX 4090   | 48GB          | 30B                |
| 2x RTX 5090   | 64GB          | 32B                |
| 4x RTX 5090   | 128GB         | 70B                |
| 2x A100 40GB  | 80GB          | 70B                |
| 4x A100 40GB  | 160GB         | 100B+              |
| 8x A100 80GB  | 640GB         | DeepSeek-V3        |

### vLLM Multi-GPU

```bash
# 2 GPUs
python -m vllm.entrypoints.openai.api_server \
    --model meta-llama/Llama-3.1-70B-Instruct \
    --tensor-parallel-size 2

# 4 GPUs
python -m vllm.entrypoints.openai.api_server \
    --model meta-llama/Llama-3.1-70B-Instruct \
    --tensor-parallel-size 4
```

***

## Spezifische Modellanleitungen

### Llama 3.1 Familie

| Variante       | Parameter | Min. GPU     | Empfohlene Konfiguration |
| -------------- | --------- | ------------ | ------------------------ |
| Llama 3.2 1B   | 1B        | Jede 4GB     | RTX 3060                 |
| Llama 3.2 3B   | 3B        | Jede 6GB     | RTX 3060                 |
| Llama 3.1 8B   | 8B        | RTX 3060     | RTX 3090                 |
| Llama 3.1 70B  | 70B       | A100 40GB    | 2x A100 40GB             |
| Llama 3.1 405B | 405B      | 8x A100 80GB | 8x H100                  |

### Mistral/Mixtral Familie

| Variante      | Parameter | Min. GPU     | Empfohlene Konfiguration |
| ------------- | --------- | ------------ | ------------------------ |
| Mistral 7B    | 7B        | RTX 3060     | RTX 3090                 |
| Mixtral 8x7B  | 46,7B     | RTX 3090     | A100 40GB                |
| Mixtral 8x22B | 141B      | 2x A100 80GB | 4x A100 80GB             |

### Qwen 2.5 Familie

| Variante      | Parameter | Min. GPU  | Empfohlene Konfiguration |
| ------------- | --------- | --------- | ------------------------ |
| Qwen 2.5 0.5B | 0.5B      | Jede 2GB  | Jede 4GB                 |
| Qwen 2.5 1.5B | 1.5B      | Jede 4GB  | RTX 3060                 |
| Qwen 2.5 3B   | 3B        | Jede 6GB  | RTX 3060                 |
| Qwen 2.5 7B   | 7B        | RTX 3060  | RTX 3090                 |
| Qwen 2.5 14B  | 14B       | RTX 3090  | RTX 4090                 |
| Qwen 2.5 32B  | 32B       | RTX 4090  | A100 40GB                |
| Qwen 2.5 72B  | 72B       | A100 40GB | A100 80GB                |

### DeepSeek-Modelle

| Variante                         | Parameter | Min. GPU          | Empfohlene Konfiguration |
| -------------------------------- | --------- | ----------------- | ------------------------ |
| DeepSeek-Coder 6.7B              | 6.7B      | RTX 3060          | RTX 3090                 |
| DeepSeek-Coder 33B               | 33B       | RTX 4090          | A100 40GB                |
| DeepSeek-V2-Lite                 | 15.7B     | RTX 3090          | A100 40GB                |
| DeepSeek-V3                      | 671B      | 8x A100 80GB      | 8x H100                  |
| **DeepSeek-R1**                  | **671B**  | **8x A100 80GB**  | **8x H100 (FP8)**        |
| **DeepSeek-R1-Distill-Qwen-32B** | **32B**   | **RTX 5090 32GB** | **2x A100 40GB**         |
| **DeepSeek-R1-Distill-Qwen-7B**  | **7B**    | **RTX 3090 24GB** | **RTX 4090**             |

***

## Fehlerbehebung

### "CUDA out of memory"

1. **Reduziere Quantisierung:** Q8 → Q4
2. **Verringere Kontextlänge:** Reduziere max\_tokens
3. **Aktiviere CPU-Offload:** `--cpu-offload` oder `enable_model_cpu_offload()`
4. **Verwende kleinere Batch:** batch\_size=1
5. **Probiere eine andere GPU:** Braucht mehr VRAM

### "Modell zu groß"

1. **Verwende quantisierte Version:** GGUF Q4-Modelle
2. **Verwende mehrere GPUs:** Tensor-Parallele Verarbeitung
3. **Offload zur CPU:** Langsamer, funktioniert aber
4. **Wähle ein kleineres Modell:** 7B statt 13B

### "Langsame Generierung"

1. **Upgrade der GPU:** Mehr VRAM = weniger Offload
2. **Verwende schnellere Quantisierung:** Q4 ist schneller als Q8
3. **Reduziere Kontext:** Kürzer = schneller
4. **Aktiviere Flash-Attention:** `--flash-attn`

## Nächste Schritte

* [GPU-Vergleichsleitfaden](https://docs.clore.ai/guides/guides_v2-de/erste-schritte/gpu-comparison) - Detaillierte GPU-Spezifikationen
* [Docker-Images-Katalog](https://docs.clore.ai/guides/guides_v2-de/erste-schritte/docker-images) - Bereit zum Bereitstellen Images
* [Schnellstart-Anleitung](https://docs.clore.ai/guides/guides_v2-de/quickstart) - Starte in 5 Minuten
