Modellkompatibilität

KI‑Modell‑ und GPU‑Kompatibilitätsmatrix für Clore.ai

Vollständiger Leitfaden, welche KI-Modelle auf welchen GPUs auf CLORE.AI laufen.

Finde GPUs mit dem richtigen VRAM auf CLORE.AI Marketplace.

Schnellreferenz

Sprachmodelle (LLM)

Modell

Parameter

Min. VRAM

Empfohlen

Quantisierung

Llama 3.2

2GB

4GB

Q4, Q8, FP16

Llama 3.2

4GB

6GB

Q4, Q8, FP16

Llama 3.1/3

6GB

12GB

Q4, Q8, FP16

Mistral

6GB

12GB

Q4, Q8, FP16

Qwen 2.5

6GB

12GB

Q4, Q8, FP16

Qwen 2.5

14B

12GB

16GB

Q4, Q8

Qwen 2.5

32B

20GB

24GB

Q4, Q8

Llama 3.1

70B

40GB

48GB

Q4, Q8

Qwen 2.5

72B

48GB

80GB

Q4, Q8

Mixtral

8x7B

24GB

48GB

DeepSeek-V3

671B

320GB+

640GB

FP8

DeepSeek-R1

671B

320GB+

8x H100

FP8, Reasoning-Modell

DeepSeek-R1-Distill

32B

20GB

2x A100 / RTX 5090

Q4/Q8

Bildgenerierungsmodelle

Modell

Min. VRAM

Empfohlen

Hinweise

SD 1.5

4GB

8GB

512x512 nativ

SD 2.1

6GB

8GB

768x768 nativ

SDXL

8GB

12GB

1024x1024 nativ

SDXL Turbo

8GB

12GB

1–4 Schritte

SD3.5 Large (8B)

16GB

24GB

1024x1024, fortgeschrittene Qualität

FLUX.1 schnell

12GB

16GB

4 Schritte, schnell

FLUX.1 dev

16GB

24GB

20–50 Schritte

TRELLIS

16GB

24GB (RTX 4090)

3D-Generierung aus Bildern

Videogenerierungsmodelle

Modell

Min. VRAM

Empfohlen

Ausgabe

Stable Video Diffusion

16GB

24GB

4 Sek., 576x1024

AnimateDiff

12GB

16GB

2–4 Sek.

LTX-Video

16GB

24GB (RTX 4090/3090)

5 Sek., 768x512, sehr schnell

Wan2.1

24GB

40GB

5 Sek., 480p–720p

Hunyuan Video

40GB

80GB

5 Sek., 720p

OpenSora

24GB

40GB

Variabel

Audio-Modelle

Modell

Min. VRAM

Empfohlen

Aufgabe

Whisper tiny

1GB

2GB

Transkription

Whisper base

1GB

2GB

Transkription

Whisper small

2GB

4GB

Transkription

Whisper medium

4GB

6GB

Transkription

Whisper large-v3

6GB

10GB

Transkription

Bark

8GB

12GB

Text-zu-Sprache

Stable Audio

8GB

12GB

Musikgenerierung

Vision- & Vision-Language-Modelle

Modell

Min. VRAM

Empfohlen

Aufgabe

Llama 3.2 Vision 11B

12GB

16GB

Bildverstehen

Llama 3.2 Vision 90B

48GB

80GB

Bildverstehen

LLaVA 7B

8GB

12GB

Visuelle QA

LLaVA 13B

16GB

24GB

Visuelle QA

Qwen2.5-VL 7B

16GB

24GB (RTX 4090)

Bild/Video/Doc OCR

Qwen2.5-VL 72B

48GB

2x A100 80GB

Maximale VL-Fähigkeit

Fine-Tuning- & Training-Tools

Tool / Methode

Min. VRAM

Empfohlene GPU

Aufgabe

Unsloth QLoRA 7B

12GB

RTX 3090 24GB

2× schnelleres QLoRA, geringer VRAM

Unsloth QLoRA 13B

16GB

RTX 4090 24GB

Schnelles Fine-Tuning

LoRA (standard)

12GB

RTX 3090

Parameter-effizientes Fine-Tuning

Full Fine-Tune 7B

40GB

A100 40GB

Maximale Trainingsqualität

Detaillierte Kompatibilitätstabellen

LLM nach GPU

GPU

Max. Modell (Q4)

Max. Modell (Q8)

Max. Modell (FP16)

RTX 3060 12GB

13B

RTX 3070 8GB

RTX 3080 10GB

RTX 3090 24GB

30B

13B

RTX 4070 Ti 12GB

13B

RTX 4080 16GB

14B

RTX 4090 24GB

30B

13B

RTX 5090 32GB

70B

14B

13B

A100 40GB

70B

30B

14B

A100 80GB

70B

30B

H100 80GB

70B

30B

Bildgenerierung nach GPU

GPU

SD 1.5

SDXL

FLUX schnell

FLUX dev

RTX 3060 12GB

✅ 512

✅ 768

⚠️ 512*

❌

RTX 3070 8GB

✅ 512

⚠️ 512

❌

RTX 3080 10GB

✅ 512

✅ 768

⚠️ 512*

❌

RTX 3090 24GB

✅ 768

✅ 1024

⚠️ 768*

RTX 4070 Ti 12GB

✅ 512

✅ 768

⚠️ 512*

❌

RTX 4080 16GB

✅ 768

✅ 1024

✅ 768

⚠️ 512*

RTX 4090 24GB

✅ 1024

RTX 5090 32GB

✅ 1024

✅ 1536

A100 40GB

✅ 1024

A100 80GB

✅ 2048

✅ 1536

*Mit CPU-Offload oder verringerter Batch-Größe

Videogenerierung nach GPU

GPU

SVD

AnimateDiff

Wan2.1

Hunyuan

RTX 3060 12GB

❌

⚠️ kurz

❌

RTX 3090 24GB

✅ 2–4s

✅

⚠️ 480p

❌

RTX 4090 24GB

✅ 4s

✅

✅ 480p

⚠️ kurz

RTX 5090 32GB

✅ 6s

✅

✅ 720p

✅ 5s

A100 40GB

✅ 4s

✅

✅ 720p

✅ 5s

A100 80GB

✅ 8s

✅

✅ 720p

✅ 10s

Quantisierungsleitfaden

Was ist Quantisierung?

Quantisierung reduziert die Modellpräzision, um weniger VRAM zu benötigen:

Format

Bits

VRAM-Reduktion

Qualitätsverlust

FP32

Basislinie

Keine

FP16

50%

Minimal

BF16

50%

Minimal

FP8

75%

Klein

75%

Klein

Q6_K

81%

Klein

Q5_K_M

84%

Mäßig

Q4_K_M

87%

Mäßig

Q3_K_M

91%

Deutlich

Q2_K

94%

Signifikant

VRAM-Rechner

Formel: VRAM (GB) ≈ Parameter (B) × Bytes pro Parameter

Modellgröße

FP16

2 GB

1 GB

0,5 GB

6 GB

3 GB

1,5 GB

14 GB

7 GB

3,5 GB

16 GB

8 GB

4 GB

13B

26 GB

13 GB

6,5 GB

14B

28 GB

14 GB

7 GB

30B

60 GB

30 GB

15 GB

32B

64 GB

32 GB

16 GB

70B

140 GB

70 GB

35 GB

72B

144 GB

72 GB

36 GB

*Ca. 20% für KV-Cache und Overhead hinzufügen

Empfohlene Quantisierung nach Anwendungsfall

Einsatzgebiet

Empfohlen

Warum

Chat/Allgemein

Q4_K_M

Gute Balance aus Geschwindigkeit und Qualität

Programmierung

Q5_K_M+

Bessere Genauigkeit für Code

Kreatives Schreiben

Q4_K_M

Geschwindigkeit ist wichtiger

Analyse

Q6_K+

Höhere Präzision erforderlich

Produktion

FP16/BF16

Maximale Qualität

Kontextlänge vs. VRAM

Wie Kontext den VRAM beeinflusst

Jedes Modell hat ein Kontextfenster (max. Tokens). Längerer Kontext = mehr VRAM:

Modell

Standardkontext

Maximaler Kontext

VRAM pro 1K Tokens

Llama 3 8B

128K

~0,3 GB

Llama 3 70B

128K

~0,5 GB

Qwen 2.5 7B

128K

~0,25 GB

Mistral 7B

32K

~0,25 GB

Mixtral 8x7B

32K

~0,4 GB

Kontext nach GPU (Llama 3 8B Q4)

GPU

Angenehmer Kontext

Maximaler Kontext

RTX 3060 12GB

16K

32K

RTX 3090 24GB

64K

96K

RTX 4090 24GB

64K

96K

RTX 5090 32GB

96K

128K

A100 40GB

96K

128K

A100 80GB

128K

Multi-GPU-Konfigurationen

Tensor-Parallele Verarbeitung

Teile ein Modell über mehrere GPUs auf:

Konfiguration

Gesamter VRAM

Max. Modell (FP16)

2x RTX 3090

48GB

30B

2x RTX 4090

48GB

30B

2x RTX 5090

64GB

32B

4x RTX 5090

128GB

70B

2x A100 40GB

80GB

70B

4x A100 40GB

160GB

100B+

8x A100 80GB

640GB

DeepSeek-V3

vLLM Multi-GPU

# 2 GPUs
python -m vllm.entrypoints.openai.api_server \
    --model meta-llama/Llama-3.1-70B-Instruct \
    --tensor-parallel-size 2

# 4 GPUs
python -m vllm.entrypoints.openai.api_server \
    --model meta-llama/Llama-3.1-70B-Instruct \
    --tensor-parallel-size 4

Spezifische Modellanleitungen

Llama 3.1 Familie

Variante

Parameter

Min. GPU

Empfohlene Konfiguration

Llama 3.2 1B

Jede 4GB

RTX 3060

Llama 3.2 3B

Jede 6GB

RTX 3060

Llama 3.1 8B

RTX 3060

RTX 3090

Llama 3.1 70B

70B

A100 40GB

2x A100 40GB

Llama 3.1 405B

405B

8x A100 80GB

8x H100

Mistral/Mixtral Familie

Variante

Parameter

Min. GPU

Empfohlene Konfiguration

Mistral 7B

RTX 3060

RTX 3090

Mixtral 8x7B

46,7B

RTX 3090

A100 40GB

Mixtral 8x22B

141B

2x A100 80GB

4x A100 80GB

Qwen 2.5 Familie

Variante

Parameter

Min. GPU

Empfohlene Konfiguration

Qwen 2.5 0.5B

0.5B

Jede 2GB

Jede 4GB

Qwen 2.5 1.5B

1.5B

Jede 4GB

RTX 3060

Qwen 2.5 3B

Jede 6GB

RTX 3060

Qwen 2.5 7B

RTX 3060

RTX 3090

Qwen 2.5 14B

14B

RTX 3090

RTX 4090

Qwen 2.5 32B

32B

RTX 4090

A100 40GB

Qwen 2.5 72B

72B

A100 40GB

A100 80GB

DeepSeek-Modelle

Variante

Parameter

Min. GPU

Empfohlene Konfiguration

DeepSeek-Coder 6.7B

6.7B

RTX 3060

RTX 3090

DeepSeek-Coder 33B

33B

RTX 4090

A100 40GB

DeepSeek-V2-Lite

15.7B

RTX 3090

A100 40GB

DeepSeek-V3

671B

8x A100 80GB

8x H100

DeepSeek-R1

671B

8x A100 80GB

8x H100 (FP8)

DeepSeek-R1-Distill-Qwen-32B

32B

RTX 5090 32GB

2x A100 40GB

DeepSeek-R1-Distill-Qwen-7B

RTX 3090 24GB

RTX 4090

Fehlerbehebung

"CUDA out of memory"

Reduziere Quantisierung: Q8 → Q4
Verringere Kontextlänge: Reduziere max_tokens
Aktiviere CPU-Offload: --cpu-offload oder enable_model_cpu_offload()
Verwende kleinere Batch: batch_size=1
Probiere eine andere GPU: Braucht mehr VRAM

"Modell zu groß"

Verwende quantisierte Version: GGUF Q4-Modelle
Verwende mehrere GPUs: Tensor-Parallele Verarbeitung
Offload zur CPU: Langsamer, funktioniert aber
Wähle ein kleineres Modell: 7B statt 13B

"Langsame Generierung"

Upgrade der GPU: Mehr VRAM = weniger Offload
Verwende schnellere Quantisierung: Q4 ist schneller als Q8
Reduziere Kontext: Kürzer = schneller
Aktiviere Flash-Attention: --flash-attn

Nächste Schritte

GPU-Vergleichsleitfaden - Detaillierte GPU-Spezifikationen
Docker-Images-Katalog - Bereit zum Bereitstellen Images
Schnellstart-Anleitung - Starte in 5 Minuten

VorherigeGPU-Vergleich NächsteKostenrechner

Zuletzt aktualisiert vor 24 Tagen

War das hilfreich?

hashtagSchnellreferenz

hashtagSprachmodelle (LLM)

hashtagBildgenerierungsmodelle

hashtagVideogenerierungsmodelle

hashtagAudio-Modelle

hashtagVision- & Vision-Language-Modelle

hashtagFine-Tuning- & Training-Tools

hashtagDetaillierte Kompatibilitätstabellen

hashtagLLM nach GPU

hashtagBildgenerierung nach GPU

hashtagVideogenerierung nach GPU

hashtagQuantisierungsleitfaden

hashtagWas ist Quantisierung?

hashtagVRAM-Rechner

hashtagEmpfohlene Quantisierung nach Anwendungsfall

hashtagKontextlänge vs. VRAM

hashtagWie Kontext den VRAM beeinflusst

hashtagKontext nach GPU (Llama 3 8B Q4)

hashtagMulti-GPU-Konfigurationen

hashtagTensor-Parallele Verarbeitung

hashtagvLLM Multi-GPU

hashtagSpezifische Modellanleitungen

hashtagLlama 3.1 Familie

hashtagMistral/Mixtral Familie

hashtagQwen 2.5 Familie

hashtagDeepSeek-Modelle

hashtagFehlerbehebung

hashtag"CUDA out of memory"

hashtag"Modell zu groß"

hashtag"Langsame Generierung"

hashtagNächste Schritte

Schnellreferenz

Sprachmodelle (LLM)

Bildgenerierungsmodelle

Videogenerierungsmodelle

Audio-Modelle

Vision- & Vision-Language-Modelle

Fine-Tuning- & Training-Tools

Detaillierte Kompatibilitätstabellen

LLM nach GPU

Bildgenerierung nach GPU

Videogenerierung nach GPU

Quantisierungsleitfaden

Was ist Quantisierung?

VRAM-Rechner

Empfohlene Quantisierung nach Anwendungsfall

Kontextlänge vs. VRAM

Wie Kontext den VRAM beeinflusst

Kontext nach GPU (Llama 3 8B Q4)

Multi-GPU-Konfigurationen

Tensor-Parallele Verarbeitung

vLLM Multi-GPU

Spezifische Modellanleitungen

Llama 3.1 Familie

Mistral/Mixtral Familie

Qwen 2.5 Familie

DeepSeek-Modelle

Fehlerbehebung

"CUDA out of memory"

"Modell zu groß"

"Langsame Generierung"

Nächste Schritte