Compatibilité des modèles

Matrice de compatibilité des modèles IA et GPU pour Clore.ai

Guide complet indiquant quels modèles d'IA fonctionnent sur quels GPU sur CLORE.AI.

Trouvez des GPU avec la VRAM appropriée sur CLORE.AI Marketplace.

Référence rapide

Modèles de langage (LLM)

Modèle

Paramètres

VRAM min

Recommandé

Quantification

Llama 3.2

2Go

4 Go

Q4, Q8, FP16

Llama 3.2

4 Go

6 Go

Q4, Q8, FP16

Llama 3.1/3

6 Go

12Go

Q4, Q8, FP16

Mistral

6 Go

12Go

Q4, Q8, FP16

Qwen 2.5

6 Go

12Go

Q4, Q8, FP16

Qwen 2.5

14B

12Go

16Go

Q4, Q8

Qwen 2.5

32B

20Go

24 Go

Q4, Q8

Llama 3.1

70B

40Go

48Go

Q4, Q8

Qwen 2.5

72B

48Go

80Go

Q4, Q8

Mixtral

8x7B

24 Go

48Go

DeepSeek-V3

671B

320Go+

640Go

FP8

DeepSeek-R1

671B

320Go+

8x H100

FP8, modèle de raisonnement

DeepSeek-R1-Distill

32B

20Go

2x A100 / RTX 5090

Q4/Q8

Modèles de génération d'images

Modèle

VRAM min

Recommandé

Remarques

SD 1.5

4 Go

8 Go

512x512 natif

SD 2.1

6 Go

8 Go

768x768 natif

SDXL

8 Go

12Go

1024x1024 natif

SDXL Turbo

8 Go

12Go

1-4 étapes

SD3.5 Large (8B)

16Go

24 Go

1024x1024, qualité avancée

FLUX.1 schnell

12Go

16Go

4 étapes, rapide

FLUX.1 dev

16Go

24 Go

20-50 étapes

TRELLIS

16Go

24Go (RTX 4090)

Génération 3D à partir d'images

Modèles de génération vidéo

Modèle

VRAM min

Recommandé

Sortie

Stable Video Diffusion

16Go

24 Go

4 s, 576x1024

AnimateDiff

12Go

16Go

2-4 s

LTX-Video

16Go

24Go (RTX 4090/3090)

5 s, 768x512, très rapide

Wan2.1

24 Go

40Go

5 s, 480p-720p

Hunyuan Video

40Go

80Go

5 s, 720p

OpenSora

24 Go

40Go

Variable

Modèles audio

Modèle

VRAM min

Recommandé

Tâche

Whisper tiny

1Go

2Go

Transcription

Whisper base

1Go

2Go

Transcription

Whisper small

2Go

4 Go

Transcription

Whisper medium

4 Go

6 Go

Transcription

Whisper large-v3

6 Go

10Go

Transcription

Bark

8 Go

12Go

Texte en parole

Stable Audio

8 Go

12Go

Génération musicale

Vision & modèles vision-langage

Modèle

VRAM min

Recommandé

Tâche

Llama 3.2 Vision 11B

12Go

16Go

Compréhension d'image

Llama 3.2 Vision 90B

48Go

80Go

Compréhension d'image

LLaVA 7B

8 Go

12Go

QA visuel

LLaVA 13B

16Go

24 Go

QA visuel

Qwen2.5-VL 7B

16Go

24Go (RTX 4090)

OCR image/vidéo/document

Qwen2.5-VL 72B

48Go

2x A100 80Go

Capacité VL maximale

Outils de fine-tuning & d'entraînement

Outil / Méthode

VRAM min

GPU recommandé

Tâche

Unsloth QLoRA 7B

12Go

RTX 3090 24GB

QLoRA 2x plus rapide, faible VRAM

Unsloth QLoRA 13B

16Go

RTX 4090 24GB

Fine-tuning rapide

LoRA (standard)

12Go

RTX 3090

Fine-tuning économe en paramètres

Fine-tune complet 7B

40Go

A100 40GB

Entraînement qualité maximale

Tableaux de compatibilité détaillés

LLM par GPU

GPU

Modèle max (Q4)

Modèle max (Q8)

Modèle max (FP16)

RTX 3060 12GB

13B

RTX 3070 8GB

RTX 3080 10Go

RTX 3090 24GB

30B

13B

RTX 4070 Ti 12Go

13B

RTX 4080 16GB

14B

RTX 4090 24GB

30B

13B

RTX 5090 32GB

70B

14B

13B

A100 40GB

70B

30B

14B

A100 80GB

70B

30B

H100 80GB

70B

30B

Génération d'images par GPU

GPU

SD 1.5

SDXL

FLUX schnell

FLUX dev

RTX 3060 12GB

✅ 512

✅ 768

⚠️ 512*

❌

RTX 3070 8GB

✅ 512

⚠️ 512

❌

RTX 3080 10Go

✅ 512

✅ 768

⚠️ 512*

❌

RTX 3090 24GB

✅ 768

✅ 1024

⚠️ 768*

RTX 4070 Ti 12Go

✅ 512

✅ 768

⚠️ 512*

❌

RTX 4080 16GB

✅ 768

✅ 1024

✅ 768

⚠️ 512*

RTX 4090 24GB

✅ 1024

RTX 5090 32GB

✅ 1024

✅ 1536

A100 40GB

✅ 1024

A100 80GB

✅ 2048

✅ 1536

*Avec déchargement CPU ou taille de lot réduite

Génération vidéo par GPU

GPU

SVD

AnimateDiff

Wan2.1

Hunyuan

RTX 3060 12GB

❌

⚠️ court

❌

RTX 3090 24GB

✅ 2-4s

✅

⚠️ 480p

❌

RTX 4090 24GB

✅ 4s

✅

✅ 480p

⚠️ court

RTX 5090 32GB

✅ 6s

✅

✅ 720p

✅ 5s

A100 40GB

✅ 4s

✅

✅ 720p

✅ 5s

A100 80GB

✅ 8s

✅

✅ 720p

✅ 10s

Guide de quantification

Qu'est-ce que la quantification ?

La quantification réduit la précision du modèle pour tenir dans moins de VRAM :

Format

Bits

Réduction de la VRAM

Perte de qualité

FP32

Référence

Aucune

FP16

50%

Minimale

BF16

50%

Minimale

FP8

75%

Faible

75%

Faible

Q6_K

81%

Faible

Q5_K_M

84%

Modérée

Q4_K_M

87%

Modérée

Q3_K_M

91%

Remarquable

Q2_K

94%

Significative

Calculateur de VRAM

Formule : VRAM (Go) ≈ Paramètres (B) × Octets par paramètre

Taille du modèle

FP16

2 Go

1 Go

0,5 Go

6 Go

3 Go

1,5 Go

14 Go

7 Go

3,5 Go

16 Go

8 Go

4 Go

13B

26 Go

13 Go

6,5 Go

14B

28 Go

14 Go

7 Go

30B

60 Go

30 Go

15 Go

32B

64 Go

32 Go

16 Go

70B

140 Go

70 Go

35 Go

72B

144 Go

72 Go

36 Go

*Ajouter ~20% pour le cache KV et les frais généraux

Quantification recommandée selon le cas d'utilisation

Cas d'utilisation

Recommandé

Pourquoi

Chat/Général

Q4_K_M

Bon équilibre entre vitesse et qualité

Programmation

Q5_K_M+

Meilleure précision pour le code

Écriture créative

Q4_K_M

La vitesse compte davantage

Analyse

Q6_K+

Précision plus élevée nécessaire

Production

FP16/BF16

Qualité maximale

Longueur de contexte vs VRAM

Comment le contexte affecte la VRAM

Chaque modèle a une fenêtre de contexte (tokens max). Contexte plus long = plus de VRAM :

Modèle

Contexte par défaut

Contexte max

VRAM par 1K tokens

Llama 3 8B

128K

~0,3 Go

Llama 3 70B

128K

~0,5 Go

Qwen 2.5 7B

128K

~0,25 Go

Mistral 7B

32K

~0,25 Go

Mixtral 8x7B

32K

~0,4 Go

Contexte par GPU (Llama 3 8B Q4)

GPU

Contexte confortable

Contexte maximal

RTX 3060 12GB

16K

32K

RTX 3090 24GB

64K

96K

RTX 4090 24GB

64K

96K

RTX 5090 32GB

96K

128K

A100 40GB

96K

128K

A100 80GB

128K

Configurations multi-GPU

Parallélisme tensoriel

Répartir un modèle sur plusieurs GPU :

Configuration

VRAM totale

Modèle max (FP16)

2x RTX 3090

48Go

30B

2x RTX 4090

48Go

30B

2x RTX 5090

64Go

32B

4x RTX 5090

128Go

70B

2x A100 40Go

80Go

70B

4x A100 40Go

160Go

100B+

8x A100 80Go

640Go

DeepSeek-V3

vLLM Multi-GPU

# 2 GPU
python -m vllm.entrypoints.openai.api_server \
    --model meta-llama/Llama-3.1-70B-Instruct \
    --tensor-parallel-size 2

# 4 GPU
python -m vllm.entrypoints.openai.api_server \
    --model meta-llama/Llama-3.1-70B-Instruct \
    --tensor-parallel-size 4

Guides spécifiques aux modèles

Famille Llama 3.1

Variante

Paramètres

GPU min

Configuration recommandée

Llama 3.2 1B

N'importe quel 4Go

RTX 3060

Llama 3.2 3B

N'importe quel 6Go

RTX 3060

Llama 3.1 8B

RTX 3060

RTX 3090

Llama 3.1 70B

70B

A100 40GB

2x A100 40Go

Llama 3.1 405B

405B

8x A100 80Go

8x H100

Famille Mistral/Mixtral

Variante

Paramètres

GPU min

Configuration recommandée

Mistral 7B

RTX 3060

RTX 3090

Mixtral 8x7B

46,7B

RTX 3090

A100 40GB

Mixtral 8x22B

141B

2x A100 80Go

4x A100 80GB

Famille Qwen 2.5

Variante

Paramètres

GPU min

Configuration recommandée

Qwen 2.5 0.5B

0,5B

N'importe quel 2Go

N'importe quel 4Go

Qwen 2.5 1.5B

1,5B

N'importe quel 4Go

RTX 3060

Qwen 2.5 3B

N'importe quel 6Go

RTX 3060

Qwen 2.5 7B

RTX 3060

RTX 3090

Qwen 2.5 14B

14B

RTX 3090

RTX 4090

Qwen 2.5 32B

32B

RTX 4090

A100 40GB

Qwen 2.5 72B

72B

A100 40GB

A100 80GB

Modèles DeepSeek

Variante

Paramètres

GPU min

Configuration recommandée

DeepSeek-Coder 6.7B

6,7B

RTX 3060

RTX 3090

DeepSeek-Coder 33B

33B

RTX 4090

A100 40GB

DeepSeek-V2-Lite

15,7B

RTX 3090

A100 40GB

DeepSeek-V3

671B

8x A100 80Go

8x H100

DeepSeek-R1

671B

8x A100 80Go

8x H100 (FP8)

DeepSeek-R1-Distill-Qwen-32B

32B

RTX 5090 32GB

2x A100 40Go

DeepSeek-R1-Distill-Qwen-7B

RTX 3090 24GB

RTX 4090

Dépannage

"CUDA out of memory"

Réduire la quantification : Q8 → Q4
Réduire la longueur de contexte : Réduire max_tokens
Activer le déchargement CPU : --cpu-offload ou enable_model_cpu_offload()
Utiliser un lot plus petit : batch_size=1
Essayer un autre GPU : Besoin de plus de VRAM

"Modèle trop grand"

Utiliser la version quantifiée : Modèles GGUF Q4
Utiliser plusieurs GPU : Parallélisme tensoriel
Décharger vers le CPU : Plus lent mais fonctionne
Choisir un modèle plus petit : 7B au lieu de 13B

"Génération lente"

Mettre à niveau le GPU : Plus de VRAM = moins de déchargement
Utiliser une quantification plus rapide : Q4 est plus rapide que Q8
Réduire le contexte : Plus court = plus rapide
Activer flash attention : --flash-attn

Prochaines étapes

Guide de comparaison des GPU - Spécifications détaillées des GPU
Catalogue d'images Docker - Images prêtes à déployer
Guide de démarrage rapide - Commencer en 5 minutes

PrécédentComparaison GPU SuivantCalculatrice de coûts

Mis à jour il y a 1 jour

Ce contenu vous a-t-il été utile ?

hashtagRéférence rapide

hashtagModèles de langage (LLM)

hashtagModèles de génération d'images

hashtagModèles de génération vidéo

hashtagModèles audio

hashtagVision & modèles vision-langage

hashtagOutils de fine-tuning & d'entraînement

hashtagTableaux de compatibilité détaillés

hashtagLLM par GPU

hashtagGénération d'images par GPU

hashtagGénération vidéo par GPU

hashtagGuide de quantification

hashtagQu'est-ce que la quantification ?

hashtagCalculateur de VRAM

hashtagQuantification recommandée selon le cas d'utilisation

hashtagLongueur de contexte vs VRAM

hashtagComment le contexte affecte la VRAM

hashtagContexte par GPU (Llama 3 8B Q4)

hashtagConfigurations multi-GPU

hashtagParallélisme tensoriel

hashtagvLLM Multi-GPU

hashtagGuides spécifiques aux modèles

hashtagFamille Llama 3.1

hashtagFamille Mistral/Mixtral

hashtagFamille Qwen 2.5

hashtagModèles DeepSeek

hashtagDépannage

hashtag"CUDA out of memory"

hashtag"Modèle trop grand"

hashtag"Génération lente"

hashtagProchaines étapes

Référence rapide

Modèles de langage (LLM)

Modèles de génération d'images

Modèles de génération vidéo

Modèles audio

Vision & modèles vision-langage

Outils de fine-tuning & d'entraînement

Tableaux de compatibilité détaillés

LLM par GPU

Génération d'images par GPU

Génération vidéo par GPU

Guide de quantification

Qu'est-ce que la quantification ?

Calculateur de VRAM

Quantification recommandée selon le cas d'utilisation

Longueur de contexte vs VRAM

Comment le contexte affecte la VRAM

Contexte par GPU (Llama 3 8B Q4)

Configurations multi-GPU

Parallélisme tensoriel

vLLM Multi-GPU

Guides spécifiques aux modèles

Famille Llama 3.1

Famille Mistral/Mixtral

Famille Qwen 2.5

Modèles DeepSeek

Dépannage

"CUDA out of memory"

"Modèle trop grand"

"Génération lente"

Prochaines étapes