Modellkompatibilität
Kompatibilitätsmatrix von KI-Modellen und GPUs für Clore.ai
Schnellreferenz
Sprachmodelle (LLM)
Modell
Parameter
Min. VRAM
Empfohlen
Quantisierung
Bildgenerierungsmodelle
Modell
Min. VRAM
Empfohlen
Hinweise
Videogenerierungsmodelle
Modell
Min. VRAM
Empfohlen
Ausgabe
Audio-Modelle
Modell
Min. VRAM
Empfohlen
Aufgabe
Vision- & Vision-Language-Modelle
Modell
Min. VRAM
Empfohlen
Aufgabe
Fine-Tuning- & Training-Tools
Tool / Methode
Min. VRAM
Empfohlene GPU
Aufgabe
Detaillierte Kompatibilitätstabellen
LLM nach GPU
GPU
Max. Modell (Q4)
Max. Modell (Q8)
Max. Modell (FP16)
Bildgenerierung nach GPU
GPU
SD 1.5
SDXL
FLUX schnell
FLUX dev
Videogenerierung nach GPU
GPU
SVD
AnimateDiff
Wan2.1
Hunyuan
Quantisierungsleitfaden
Was ist Quantisierung?
Format
Bits
VRAM-Reduktion
Qualitätsverlust
VRAM-Rechner
Modellgröße
FP16
Q8
Q4
Empfohlene Quantisierung nach Anwendungsfall
Einsatzgebiet
Empfohlen
Warum
Kontextlänge vs. VRAM
Wie Kontext den VRAM beeinflusst
Modell
Standardkontext
Maximaler Kontext
VRAM pro 1K Tokens
Kontext nach GPU (Llama 3 8B Q4)
GPU
Angenehmer Kontext
Maximaler Kontext
Multi-GPU-Konfigurationen
Tensor-Parallele Verarbeitung
Konfiguration
Gesamter VRAM
Max. Modell (FP16)
vLLM Multi-GPU
Spezifische Modellanleitungen
Llama 3.1 Familie
Variante
Parameter
Min. GPU
Empfohlene Konfiguration
Mistral/Mixtral Familie
Variante
Parameter
Min. GPU
Empfohlene Konfiguration
Qwen 2.5 Familie
Variante
Parameter
Min. GPU
Empfohlene Konfiguration
DeepSeek-Modelle
Variante
Parameter
Min. GPU
Empfohlene Konfiguration
Fehlerbehebung
"CUDA out of memory"
"Modell zu groß"
"Langsame Generierung"
Nächste Schritte
Zuletzt aktualisiert
War das hilfreich?