DeepSeek V4 (1T MoE, multimodal)

Déployez DeepSeek V4 — le modèle multimodal à poids ouverts d’un trillion de paramètres — sur les serveurs GPU de Clore.ai

Statut (4 mars 2026) : La sortie de DeepSeek V4 est imminente — prévue la première semaine de mars 2026. Ce guide couvre l'installation avec vLLM/Ollama une fois les poids disponibles sur HuggingFace. Consultez huggingface.co/deepseek-ai pour la dernière version.

DeepSeek V4 est le modèle à poids ouverts le plus attendu du début 2026 — un ~1 trillion de paramètres multimodal MoE de DeepSeek AI, entraîné sur les dernières puces NVIDIA et optimisé pour le matériel Huawei Ascend. Avec ~32B de paramètres actifs par token, il offre des performances de pointe pour une fraction du coût de calcul.

Principales spécifications

Propriété

Valeur

Paramètres totaux

~1 trillion (MoE)

Paramètres actifs

~32B par passage avant

Fenêtre de contexte

1M tokens

Modalités

Texte + Image + Vidéo

Licence

MIT attendu (comme V3)

Benchmark

Attendu pour dominer les tableaux de classement open-source

Pourquoi DeepSeek V4 ?

Modèle open-weight n°1 — conçu pour surpasser V3 et rivaliser avec GPT-4.5/Claude Opus
Multimodal — gère nativement les entrées texte, image et vidéo
Contexte 1M — RAG sur documents longs, bases de code entières en contexte
Licence MIT — usage commercial autorisé, sans restrictions
Efficacité massive — seulement 32B de paramètres actifs malgré 1T au total

Exigences

Composant

Minimum

Recommandé

VRAM GPU

2× RTX 4090 (48Go) pour Q4

4× A100 80GB pour FP16

RAM

64Go

128Go

Disque

500Go (quantifié)

2To (FP16)

CUDA

12.4+

12.6+

Alerte modèle volumineux : DeepSeek V4 en FP16 nécessite ~2To de VRAM répartis sur plusieurs A100/H100. Pour une utilisation pratique sur un ou deux nœuds, attendez la quantification GGUF Q4 (attendue dans les jours suivant la sortie). Q4_K_M à ~1T de paramètres ≈ ~500Go — utilisez multi-nœud ou quant 8 bits sur 4× RTX 4090.

Option A — Quantifié via Ollama (le plus simple, une fois disponible)

Ollama ajoutera les modèles DeepSeek V4 dans les heures suivant la mise à disposition des poids.

version : "3.8"
services :
  ollama :
    image : ollama/ollama:latest
    ports :
      - "11434:11434"
    volumes :
      - ollama_data:/root/.ollama
    déployer :
      ressources :
        réservations :
          périphériques :
            - driver : nvidia
              count : all
              capabilities : [gpu]
    environnement :
      - OLLAMA_KEEP_ALIVE=24h
      - OLLAMA_MAX_LOADED_MODELS=1

volumes :
  ollama_data :

# Récupérer et exécuter DeepSeek V4 (mettre à jour le tag une fois publié)
docker exec ollama ollama pull deepseek-v4:32b-q4_K_M
docker exec ollama ollama run deepseek-v4:32b-q4_K_M

# Ou via Open WebUI pour une interface de chat complète
docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  ghcr.io/open-webui/open-webui:main

Option B — vLLM (API de production, haut débit)

version : "3.8"
services :
  vllm :
    image : vllm/vllm-openai:latest
    ports :
      - "8000:8000"
    volumes :
      - hf_cache:/root/.cache/huggingface
    commande : >
      --model deepseek-ai/DeepSeek-V4
      --tensor-parallel-size 4
      --max-model-len 32768
      --dtype bfloat16
      --gpu-memory-utilization 0.92
      --served-model-name deepseek-v4
    déployer :
      ressources :
        réservations :
          périphériques :
            - driver : nvidia
              count : all
              capabilities : [gpu]
    shm_size : "16gb"

volumes :
  hf_cache :

# Tester l'API
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model" : "deepseek-v4",
    "messages" : [{"role" : "user", "content" : "Expliquez l'intrication quantique simplement"}],
    "max_tokens" : 512
  }'

Option C — llama.cpp (CPU+GPU, quantifié)

# Une fois les fichiers GGUF disponibles sur HuggingFace
docker run --gpus all -it --rm \
  -p 8080:8080 \
  -v $(pwd)/models:/models \
  ghcr.io/ggerganov/llama.cpp:server-cuda \
  -m /models/deepseek-v4-q4_k_m.gguf \
  --n-gpu-layers 80 \
  --threads 8 \
  --ctx-size 8192 \
  --port 8080 \
  --host 0.0.0.0

Recommandations GPU sur Clore.ai

Configuration

VRAM

Performance attendue

Coût Clore.ai

2× RTX 4090

48Go

Quantifié Q4, ~15 tok/s

~4–5 $/jour

4× RTX 4090

96Go

Quantifié Q5/Q8, ~25 tok/s

~8–10 $/jour

4× A100 80GB

320Go

Sharding MoE en BF16, rapide

~15–20 $/jour

8× H100 80GB

640Go

FP16 complet, vitesse maximale

~50+ $/jour

Meilleur rapport qualité/prix sur Clore.ai : Louez 2× RTX 4090 (disponible à partir d'environ 4 $/jour) pour DeepSeek V4 quantifié Q4. Attendez 10–20 tokens/seconde — parfait pour un usage personnel et le développement.

Transfert de ports Clore.ai

Ajoutez ceci à la configuration des ports de votre conteneur Clore.ai :

Port

Service

11434

API Ollama

8000

API vLLM compatible OpenAI

8080

Serveur llama.cpp / Open WebUI

3000

Interface de chat Open WebUI

Conseils de performance

Utilisez la quantification Q4_K_M pour le meilleur compromis qualité/VRAM — dépasse toujours la plupart des modèles 70B
Activez la flash attention : ajoutez --enable-chunked-prefill dans vLLM pour les contextes longs
Parallélisme tensoriel : le --tensor-parallel-size N sur N GPU est transparent
Longueur de contexte : Commencez avec 8192 de contexte sur 2× 4090, augmentez si la VRAM le permet
BF16 > FP16 pour les modèles MoE — moins de perte de précision sur les activations clairsemées

À quoi s'attendre

Basé sur les tendances de DeepSeek V3 et les benchmarks pré-release :

Programmation : Attendu de niveau supérieur sur SWE-bench (rivalisant avec Claude 3.7 Sonnet)
Maths/Raisonnement : Scores MATH-500 et AIME supérieurs à tous les prédécesseurs à poids ouverts
Multimodal : Compréhension d'images et de vidéos comparable à GPT-4V
Contexte long : Fenêtre d'1M de tokens pour l'analyse d'une base de code entière

Liens

HuggingFace : huggingface.co/deepseek-ai (les poids apparaîtront ici)
GitHub : github.com/deepseek-ai
Guide DeepSeek V3 (actuel) : DeepSeek-V3
Guide DeepSeek-R1 : DeepSeek-R1
Place de marché Clore.ai : clore.ai/marketplace

PrécédentLFM2-24B-A2B SuivantTGI (Text Generation Inference)

Mis à jour il y a 23 jours

Ce contenu vous a-t-il été utile ?

hashtagPrincipales spécifications

hashtagPourquoi DeepSeek V4 ?

hashtagExigences

hashtagOption A — Quantifié via Ollama (le plus simple, une fois disponible)

hashtagOption B — vLLM (API de production, haut débit)

hashtagOption C — llama.cpp (CPU+GPU, quantifié)

hashtagRecommandations GPU sur Clore.ai

hashtagTransfert de ports Clore.ai

hashtagConseils de performance

hashtagÀ quoi s'attendre

hashtagLiens

Principales spécifications

Pourquoi DeepSeek V4 ?

Exigences

Option A — Quantifié via Ollama (le plus simple, une fois disponible)

Option B — vLLM (API de production, haut débit)

Option C — llama.cpp (CPU+GPU, quantifié)

Recommandations GPU sur Clore.ai

Transfert de ports Clore.ai

Conseils de performance

À quoi s'attendre

Liens