DeepSeek V4 (1T MoE, Multimodal)

Déployez DeepSeek V4 — le modèle multimodal à mille milliards de paramètres à poids ouverts — sur les serveurs GPU de Clore.ai

circle-info

Statut (4 mars 2026) : La sortie de DeepSeek V4 est imminente — prévue la première semaine de mars 2026. Ce guide couvre l'installation avec vLLM/Ollama une fois les poids disponibles sur HuggingFace. Consultez huggingface.co/deepseek-aiarrow-up-right pour la dernière version.

DeepSeek V4 est le modèle à poids ouverts le plus attendu du début 2026 — un ~1 trillion de paramètres multimodal MoE de DeepSeek AI, entraîné sur les dernières puces NVIDIA et optimisé pour le matériel Huawei Ascend. Avec ~32B de paramètres actifs par token, il offre des performances de pointe pour une fraction du coût de calcul.

Principales spécifications

Propriété
Valeur

Paramètres totaux

~1 trillion (MoE)

Paramètres actifs

~32B par passage avant

Fenêtre de contexte

1M tokens

Modalités

Texte + Image + Vidéo

Licence

MIT attendu (comme V3)

Benchmark

Attendu pour dominer les tableaux de classement open-source

Pourquoi DeepSeek V4 ?

  • Modèle open-weight n°1 — conçu pour surpasser V3 et rivaliser avec GPT-4.5/Claude Opus

  • Multimodal — gère nativement les entrées texte, image et vidéo

  • Contexte 1M — RAG sur documents longs, bases de code entières en contexte

  • Licence MIT — usage commercial autorisé, sans restrictions

  • Efficacité massive — seulement 32B de paramètres actifs malgré 1T au total


Exigences

Composant
Minimum
Recommandé

VRAM GPU

2× RTX 4090 (48Go) pour Q4

4× A100 80GB pour FP16

RAM

64Go

128Go

Disque

500Go (quantifié)

2To (FP16)

CUDA

12.4+

12.6+

circle-exclamation

Option A — Quantifié via Ollama (le plus simple, une fois disponible)

Ollama ajoutera les modèles DeepSeek V4 dans les heures suivant la mise à disposition des poids.


Option B — vLLM (API de production, haut débit)


Option C — llama.cpp (CPU+GPU, quantifié)


Recommandations GPU sur Clore.ai

Configuration
VRAM
Performance attendue
Coût Clore.ai

2× RTX 4090

48Go

Quantifié Q4, ~15 tok/s

~4–5 $/jour

4× RTX 4090

96Go

Quantifié Q5/Q8, ~25 tok/s

~8–10 $/jour

4× A100 80GB

320Go

Sharding MoE en BF16, rapide

~15–20 $/jour

8× H100 80GB

640Go

FP16 complet, vitesse maximale

~50+ $/jour

circle-check

Transfert de ports Clore.ai

Ajoutez ceci à la configuration des ports de votre conteneur Clore.ai :

Port
Service

11434

API Ollama

8000

API vLLM compatible OpenAI

8080

Serveur llama.cpp / Open WebUI

3000

Interface de chat Open WebUI


Conseils de performance

  1. Utilisez la quantification Q4_K_M pour le meilleur compromis qualité/VRAM — dépasse toujours la plupart des modèles 70B

  2. Activez la flash attention : ajoutez --enable-chunked-prefill dans vLLM pour les contextes longs

  3. Parallélisme tensoriel : le --tensor-parallel-size N sur N GPU est transparent

  4. Longueur de contexte : Commencez avec 8192 de contexte sur 2× 4090, augmentez si la VRAM le permet

  5. BF16 > FP16 pour les modèles MoE — moins de perte de précision sur les activations clairsemées


À quoi s'attendre

Basé sur les tendances de DeepSeek V3 et les benchmarks pré-release :

  • Programmation : Attendu de niveau supérieur sur SWE-bench (rivalisant avec Claude 3.7 Sonnet)

  • Maths/Raisonnement : Scores MATH-500 et AIME supérieurs à tous les prédécesseurs à poids ouverts

  • Multimodal : Compréhension d'images et de vidéos comparable à GPT-4V

  • Contexte long : Fenêtre d'1M de tokens pour l'analyse d'une base de code entière


Liens

Mis à jour

Ce contenu vous a-t-il été utile ?