Compatibilité des modèles
Matrice de compatibilité des modèles IA et GPU pour Clore.ai
Référence rapide
Modèles de langage (LLM)
Modèle
Paramètres
VRAM min
Recommandé
Quantification
Modèles de génération d'images
Modèle
VRAM min
Recommandé
Remarques
Modèles de génération vidéo
Modèle
VRAM min
Recommandé
Sortie
Modèles audio
Modèle
VRAM min
Recommandé
Tâche
Vision & modèles vision-langage
Modèle
VRAM min
Recommandé
Tâche
Outils de fine-tuning & d'entraînement
Outil / Méthode
VRAM min
GPU recommandé
Tâche
Tableaux de compatibilité détaillés
LLM par GPU
GPU
Modèle max (Q4)
Modèle max (Q8)
Modèle max (FP16)
Génération d'images par GPU
GPU
SD 1.5
SDXL
FLUX schnell
FLUX dev
Génération vidéo par GPU
GPU
SVD
AnimateDiff
Wan2.1
Hunyuan
Guide de quantification
Qu'est-ce que la quantification ?
Format
Bits
Réduction de la VRAM
Perte de qualité
Calculateur de VRAM
Taille du modèle
FP16
Q8
Q4
Quantification recommandée selon le cas d'utilisation
Cas d'utilisation
Recommandé
Pourquoi
Longueur de contexte vs VRAM
Comment le contexte affecte la VRAM
Modèle
Contexte par défaut
Contexte max
VRAM par 1K tokens
Contexte par GPU (Llama 3 8B Q4)
GPU
Contexte confortable
Contexte maximal
Configurations multi-GPU
Parallélisme tensoriel
Configuration
VRAM totale
Modèle max (FP16)
vLLM Multi-GPU
Guides spécifiques aux modèles
Famille Llama 3.1
Variante
Paramètres
GPU min
Configuration recommandée
Famille Mistral/Mixtral
Variante
Paramètres
GPU min
Configuration recommandée
Famille Qwen 2.5
Variante
Paramètres
GPU min
Configuration recommandée
Modèles DeepSeek
Variante
Paramètres
GPU min
Configuration recommandée
Dépannage
"CUDA out of memory"
"Modèle trop grand"
"Génération lente"
Prochaines étapes
Mis à jour
Ce contenu vous a-t-il été utile ?