Comparaison GPU

Guide complet de comparaison des GPU pour les charges de travail IA sur Clore.ai

Comparaison complète des GPU disponibles sur CLORE.AI pour les charges de travail d'IA.

circle-check

Recommandation rapide

Votre tâche
Choix budget
Meilleur rapport qualité/prix
Performance maximale

Chat avec IA (7B)

RTX 3060 12GB

RTX 3090 24GB

RTX 5090 32GB

Chat avec IA (70B)

RTX 3090 24GB

RTX 5090 32GB

A100 80GB

Génération d'images (SD 1.5)

RTX 3060 12GB

RTX 3090 24GB

RTX 5090 32GB

Génération d'images (SDXL)

RTX 3090 24GB

RTX 4090 24GB

RTX 5090 32GB

Génération d'images (FLUX)

RTX 3090 24GB

RTX 5090 32GB

A100 80GB

Génération vidéo

RTX 4090 24GB

RTX 5090 32GB

A100 80GB

Entraînement de modèle

A100 40GB

A100 80GB

H100 80GB

GPU grand public

NVIDIA RTX 3060 12GB

Idéal pour : IA économique, SD 1.5, petits LLM

Spécification
Valeur

VRAM

12GB GDDR6

Bande passante mémoire

360 GB/s

Performance FP16

12.7 TFLOPS

Cœurs Tensor

112 (3e gén.)

TDP

170W

~Prix/heure

$0.02-0.04

Capacités :

  • ✅ Ollama avec modèles 7B (T4)

  • ✅ Stable Diffusion 1.5 (512x512)

  • ✅ SDXL (768x768, lent)

  • ⚠️ FLUX schnell (avec déchargement CPU)

  • ❌ Grands modèles (>13B)

  • ❌ Génération vidéo


NVIDIA RTX 3070/3070 Ti 8GB

Idéal pour : SD 1.5, tâches légères

Spécification
Valeur

VRAM

8GB GDDR6X

Bande passante mémoire

448-608 GB/s

Performance FP16

20.3 TFLOPS

Cœurs Tensor

184 (3e gén.)

TDP

220-290W

~Prix/heure

$0.02-0.04

Capacités :

  • ✅ Ollama avec modèles 7B (T4)

  • ✅ Stable Diffusion 1.5 (512x512)

  • ⚠️ SDXL (résolution faible seulement)

  • ❌ FLUX (VRAM insuffisante)

  • ❌ Modèles >7B

  • ❌ Génération vidéo


NVIDIA RTX 3080/3080 Ti 10-12GB

Idéal pour : Tâches IA générales, bon équilibre

Spécification
Valeur

VRAM

10-12GB GDDR6X

Bande passante mémoire

760-912 GB/s

Performance FP16

29.8-34.1 TFLOPS

Cœurs Tensor

272-320 (3e gén.)

TDP

320-350W

~Prix/heure

$0.04-0.06

Capacités :

  • ✅ Ollama avec modèles 13B

  • ✅ Stable Diffusion 1.5/2.1

  • ✅ SDXL (1024x1024)

  • ⚠️ FLUX schnell (avec offload)

  • ❌ Grands modèles (>13B)

  • ❌ Génération vidéo


NVIDIA RTX 3090/3090 Ti 24GB

Idéal pour : SDXL, LLM 13B-30B, ControlNet

Spécification
Valeur

VRAM

24GB GDDR6X

Bande passante mémoire

936 GB/s

Performance FP16

35.6 TFLOPS

Cœurs Tensor

328 (3e gén.)

TDP

350-450W

~Prix/heure

$0.05-0.08

Capacités :

  • ✅ Ollama avec modèles 30B

  • ✅ vLLM avec modèles 13B

  • ✅ Tous les modèles Stable Diffusion

  • ✅ SDXL + ControlNet

  • ✅ FLUX schnell (1024x1024)

  • ⚠️ FLUX dev (avec offload)

  • ⚠️ Vidéo (clips courts)


NVIDIA RTX 4070 Ti 12GB

Idéal pour : SD 1.5 rapide, inférence efficace

Spécification
Valeur

VRAM

12GB GDDR6X

Bande passante mémoire

504 GB/s

Performance FP16

40.1 TFLOPS

Cœurs Tensor

184 (4e gén.)

TDP

285W

~Prix/heure

$0.04-0.06

Capacités :

  • ✅ Ollama avec modèles 7B (rapide)

  • ✅ Stable Diffusion 1.5 (très rapide)

  • ✅ SDXL (768x768)

  • ⚠️ FLUX schnell (résolution limitée)

  • ❌ Grands modèles (>13B)

  • ❌ Génération vidéo


NVIDIA RTX 4080 16GB

Idéal pour : SDXL production, LLM 13B

Spécification
Valeur

VRAM

16GB GDDR6X

Bande passante mémoire

717 GB/s

Performance FP16

48.7 TFLOPS

Cœurs Tensor

304 (4e gén.)

TDP

320W

~Prix/heure

$0.06-0.09

Capacités :

  • ✅ Ollama avec modèles 13B (rapide)

  • ✅ vLLM avec modèles 7B

  • ✅ Tous les modèles Stable Diffusion

  • ✅ SDXL + ControlNet

  • ✅ FLUX schnell (1024x1024)

  • ⚠️ FLUX dev (limité)

  • ⚠️ Clips vidéo courts


NVIDIA RTX 4090 24GB

Idéal pour : Performance grand public haut de gamme, FLUX, vidéo

Spécification
Valeur

VRAM

24GB GDDR6X

Bande passante mémoire

1008 GB/s

Performance FP16

82.6 TFLOPS

Cœurs Tensor

512 (4e gén.)

TDP

450W

~Prix/heure

$0.08-0.12

Capacités :

  • ✅ Ollama avec modèles 30B (rapide)

  • ✅ vLLM avec modèles 13B

  • ✅ Tous les modèles de génération d'images

  • ✅ FLUX dev (1024x1024)

  • ✅ Génération vidéo (courts)

  • ✅ AnimateDiff

  • ⚠️ Modèles 70B (T4 seulement)


NVIDIA RTX 5080 16GB (Nouveau — Fév 2025)

Idéal pour : SDXL/FLUX rapide, LLM 13B-30B, hautes performances milieu de gamme

Spécification
Valeur

VRAM

16GB GDDR7

Bande passante mémoire

960 GB/s

Performance FP16

~80 TFLOPS

Cœurs Tensor

336 (5e gén.)

TDP

360W

~Prix Clore.ai/heure

$1.50-2.00

Capacités :

  • ✅ Ollama avec modèles 13B (rapide)

  • ✅ vLLM avec modèles 13B

  • ✅ Tous les modèles Stable Diffusion

  • ✅ SDXL + ControlNet (très rapide)

  • ✅ FLUX schnell/dev (1024x1024)

  • ✅ Clips vidéo courts

  • ⚠️ Modèles 30B (T4 seulement)

  • ❌ Modèles 70B


NVIDIA RTX 5090 32GB (Flagship — Fév 2025)

Idéal pour : Performance consommateur maximale, modèles 70B, génération vidéo haute résolution

Spécification
Valeur

VRAM

32GB GDDR7

Bande passante mémoire

1792 GB/s

Performance FP16

~120 TFLOPS

Cœurs Tensor

680 (5e gén.)

TDP

575W

~Prix Clore.ai/heure

$3.00-4.00

Capacités :

  • ✅ Ollama avec modèles 70B (T4, rapide)

  • ✅ vLLM avec modèles 30B

  • ✅ Tous les modèles de génération d'images

  • ✅ FLUX dev (1536x1536)

  • ✅ Génération vidéo (clips plus longs)

  • ✅ AnimateDiff + ControlNet

  • ✅ Entraînement de modèle (LoRA, petits fine-tunes)

  • ✅ DeepSeek-R1 32B distill (FP16)

GPU professionnels / Datacenter

NVIDIA A100 40GB

Idéal pour : LLM en production, entraînement, grands modèles

Spécification
Valeur

VRAM

40GB HBM2e

Bande passante mémoire

1555 GB/s

Performance FP16

77.97 TFLOPS

Cœurs Tensor

432 (3e gén.)

TDP

400W

~Prix/heure

$0.15-0.20

Capacités :

  • ✅ Ollama avec modèles 70B (T4)

  • ✅ Service vLLM en production

  • ✅ Toute la génération d'images

  • ✅ FLUX dev (haute qualité)

  • ✅ Génération vidéo

  • ✅ Fine-tuning de modèles

  • ⚠️ 70B FP16 (limité)


NVIDIA A100 80GB

Idéal pour : Modèles 70B+, vidéo, charges de production

Spécification
Valeur

VRAM

80GB HBM2e

Bande passante mémoire

2039 GB/s

Performance FP16

77.97 TFLOPS

Cœurs Tensor

432 (3e gén.)

TDP

400W

~Prix/heure

$0.20-0.30

Capacités :

  • ✅ Tous les LLM jusqu'à 70B (FP16)

  • ✅ Service vLLM haut débit

  • ✅ Toute la génération d'images

  • ✅ Génération vidéo longue

  • ✅ Entraînement de modèles

  • ✅ DeepSeek-V3 (partiel)

  • ⚠️ Modèles 100B+


NVIDIA H100 80GB

Idéal pour : Performance maximale, plus grands modèles

Spécification
Valeur

VRAM

80GB HBM3

Bande passante mémoire

3350 GB/s

Performance FP16

267 TFLOPS

Cœurs Tensor

528 (4e gén.)

TDP

700W

~Prix/heure

$0.40-0.60

Capacités :

  • ✅ Tous les modèles à vitesse maximale

  • ✅ Modèles à 100B+ paramètres

  • ✅ Service multi-modèles

  • ✅ Entraînement à grande échelle

  • ✅ Génération vidéo en temps réel

  • ✅ DeepSeek-V3 (671B)

Comparaisons de performance

Inférence LLM (tokens/seconde)

GPU
Llama 3 8B
Llama 3 70B
Mixtral 8x7B
Clore.ai $/hr

RTX 3060 12GB

25

-

-

$0.02-0.04

RTX 3090 24GB

45

8*

20*

$0.15-0.25

RTX 4090 24GB

80

15*

35*

$0.35-0.55

RTX 5080 16GB

95

-

40*

$1.50-2.00

RTX 5090 32GB

150

30*

65*

$3.00-4.00

A100 40GB

100

25

45

$0.80-1.20

A100 80GB

110

40

55

$1.20-1.80

H100 80GB

180

70

90

$2.50-3.50

*Avec quantification (Q4/Q8)

Vitesse de génération d'images

GPU
SD 1.5 (512)
SDXL (1024)
FLUX schnell
Clore.ai $/hr

RTX 3060 12GB

4 s

15 s

25 s*

$0.02-0.04

RTX 3090 24GB

2 s

7 s

12 s

$0.15-0.25

RTX 4090 24GB

1 s

3 s

5 s

$0.35-0.55

RTX 5080 16GB

0.8 s

2.5 s

4 s

$1.50-2.00

RTX 5090 32GB

0.6 s

1.8 s

3 s

$3.00-4.00

A100 40GB

1.5 s

4 s

6 s

$0.80-1.20

A100 80GB

1.5 s

4 s

5 s

$1.20-1.80

*Avec déchargement CPU, résolution réduite

Génération vidéo (clip 5 s)

GPU
SVD
Wan2.1
Hunyuan

RTX 3090 24GB

3 min

5 min*

-

RTX 4090 24GB

1,5 min

3 min

8 min*

RTX 5090 32GB

1 min

2 min

5 min

A100 40GB

1 min

2 min

5 min

A100 80GB

45 s

1,5 min

3 min

*Résolution limitée

Ratio prix/performance

Meilleur rapport par tâche

Chat/LLM (modèles 7B-13B) :

  1. 🥇 RTX 3090 24GB - Meilleur prix/performance

  2. 🥈 RTX 3060 12GB - Coût le plus bas

  3. 🥉 RTX 4090 24GB - Le plus rapide

Génération d'images (SDXL/FLUX) :

  1. 🥇 RTX 3090 24GB - Excellent équilibre

  2. 🥈 RTX 4090 24GB - 2x plus rapide

  3. 🥉 A100 40GB - Stabilité en production

Grands modèles (70B+) :

  1. 🥇 A100 40GB - Meilleur rapport pour 70B

  2. 🥈 A100 80GB - Précision complète

  3. 🥉 RTX 4090 24GB - Option budget (T4 seulement)

Génération vidéo :

  1. 🥇 A100 40GB - Bon équilibre

  2. 🥈 RTX 4090 24GB - Option grand public

  3. 🥉 A100 80GB - Clips les plus longs

Entraînement de modèles :

  1. 🥇 A100 40GB - Choix standard

  2. 🥈 A100 80GB - Grands modèles

  3. 🥉 RTX 4090 24GB - Petits modèles/LoRA

Configurations multi-GPU

Certaines tâches bénéficient de plusieurs GPU :

Configuration
Cas d'utilisation
Total VRAM

2x RTX 3090

Inférence 70B

48Go

2x RTX 4090

70B rapide, entraînement

48Go

2x RTX 5090

70B FP16, entraînement rapide

64Go

4x RTX 5090

Modèles 100B+

128Go

4x A100 40Go

Modèles 100B+

160Go

8x A100 80Go

DeepSeek-V3, Llama 405B

640Go

Choisir votre GPU

Organigramme de décision

Conseils pour économiser de l'argent

  1. Utilisez les commandes Spot - 30-50% moins cher que à la demande

  2. Commencez petit - Testez d'abord sur des GPU moins chers

  3. Quantifiez les modèles - Q4/Q8 permet d'adapter des modèles plus grands dans moins de VRAM

  4. Traitement par lots - Traitez plusieurs requêtes en même temps

  5. Heures creuses - Meilleure disponibilité et parfois prix plus bas

Prochaines étapes

Mis à jour

Ce contenu vous a-t-il été utile ?