DeepSeek V4 (1T MoE, multimodal)

Deploye DeepSeek V4 — das multimodale Open-Weight-Modell mit Billionen Parametern — auf Clore.ai-GPU-Servern

Status (4. März 2026): Die Veröffentlichung von DeepSeek V4 steht bevor — voraussichtlich in der ersten Märzwoche 2026. Diese Anleitung behandelt die Einrichtung mit vLLM/Ollama, sobald die Gewichte auf HuggingFace verfügbar sind. Prüfe huggingface.co/deepseek-ai für die neueste Version.

DeepSeek V4 ist das meist erwartete Open-Weight-Modell Anfang 2026 — ein ~1 Billion Parameter Multimodal-MoE von DeepSeek AI, trainiert auf NVIDIAs neuesten Chips und für Huawei Ascend-Hardware optimiert. Mit ~32B aktiven Parametern pro Token liefert es Spitzenleistung zu einem Bruchteil der Rechenkosten.

Wesentliche Spezifikationen

Eigenschaft

Wert

Gesamtparameter

~1 Billion (MoE)

Aktive Parameter

~32B pro Vorwärtsdurchlauf

Kontextfenster

1M Tokens

Modalitäten

Text + Bild + Video

Lizenz

Erwartet: MIT (wie V3)

Benchmark

Wird voraussichtlich die Open-Source-Ranglisten anführen

Warum DeepSeek V4?

#1 Open-Weight-Modell — entwickelt, um V3 zu übertreffen und mit GPT-4.5/Claude Opus zu konkurrieren
Multimodal — behandelt nativ Text-, Bild- und Videoeingaben
1M Kontext — RAG für lange Dokumente, gesamte Codebasen im Kontext
MIT-Lizenz — kommerzielle Nutzung erlaubt, keine Beschränkungen
Enorme Effizienz — nur 32B aktive Parameter trotz 1T Gesamtparametern

Anforderungen

Komponente

Minimum

Option A — Quantisiert via Ollama (Einfachste Option, sobald verfügbar)

Ollama wird DeepSeek V4-Modelle innerhalb weniger Stunden nach Freigabe der Gewichte hinzufügen.

version: "3.8"
services:
  ollama:
    image: ollama/ollama:latest
    ports:
      - "11434:11434"
    volumes:
      - ollama_data:/root/.ollama
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    environment:
      - OLLAMA_KEEP_ALIVE=24h
      - OLLAMA_MAX_LOADED_MODELS=1

volumes:
  ollama_data:

# DeepSeek V4 ziehen und ausführen (Tag nach Release aktualisieren)
docker exec ollama ollama pull deepseek-v4:32b-q4_K_M
docker exec ollama ollama run deepseek-v4:32b-q4_K_M

# Oder über Open WebUI für eine vollständige Chat-Oberfläche
docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  ghcr.io/open-webui/open-webui:main

Option B — vLLM (Produktions-API, hoher Durchsatz)

version: "3.8"
services:
  vllm:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - hf_cache:/root/.cache/huggingface
    command: >
      --model deepseek-ai/DeepSeek-V4
      --tensor-parallel-size 4
      --max-model-len 32768
      --dtype bfloat16
      --gpu-memory-utilization 0.92
      --served-model-name deepseek-v4
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    shm_size: "16gb"

volumes:
  hf_cache:

# API testen
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4",
    "messages": [{"role": "user", "content": "Erkläre Quantenverschränkung einfach"}],
    "max_tokens": 512
  }'

Option C — llama.cpp (CPU+GPU, quantisiert)

# Sobald GGUF-Dateien auf HuggingFace verfügbar sind
docker run --gpus all -it --rm \
  -p 8080:8080 \
  -v $(pwd)/models:/models \
  ghcr.io/ggerganov/llama.cpp:server-cuda \
  -m /models/deepseek-v4-q4_k_m.gguf \
  --n-gpu-layers 80 \
  --threads 8 \
  --ctx-size 8192 \
  --port 8080 \
  --host 0.0.0.0

GPU-Empfehlungen auf Clore.ai

Einrichtung

VRAM

Erwartete Leistung

Clore.ai Kosten

2× RTX 4090

48GB

Q4 quantisiert, ~15 Tok/s

~$4–5/Tag

4× RTX 4090

96GB

Q5/Q8 quantisiert, ~25 Tok/s

~$8–10/Tag

4× A100 80GB

320GB

BF16 MoE-Sharding, schnell

~$15–20/Tag

8× H100 80GB

640GB

Volles FP16, maximale Geschwindigkeit

~$50+/Tag

Bestes Preis-Leistungs-Verhältnis auf Clore.ai: Miete 2× RTX 4090 (verfügbar ab ~4$/Tag) für Q4-quantisiertes DeepSeek V4. Erwartet 10–20 Tokens/Sekunde — perfekt für den persönlichen Gebrauch und Entwicklung.

Clore.ai Portweiterleitung

Füge diese zu deiner Portkonfiguration des Clore.ai-Containers hinzu:

Port

Dienst

11434

Ollama-API

8000

vLLM OpenAI-kompatible API

8080

llama.cpp-Server / Open WebUI

3000

Open WebUI Chat-Oberfläche

Leistungstipps

Verwende Q4_K_M-Quantisierung für das beste Qualitäts-/VRAM-Verhältnis — übertrifft dennoch die meisten 70B-Modelle
Aktiviere Flash-Attention: füge hinzu --enable-chunked-prefill in vLLM für lange Kontexte
Tensorparallellismus: vLLMs --tensor-parallel-size N über N GPUs ist nahtlos
Kontextlänge: Beginne mit 8192 Kontext auf 2× 4090, erhöhe, wenn VRAM es zulässt
BF16 > FP16 für MoE-Modelle — weniger Präzisionsverlust bei sparsamen Aktivierungen

Was zu erwarten ist

Basierend auf DeepSeek V3-Mustern und Vorab-Benchmarks:

Programmierung: Erwartet Top-Leistung bei SWE-bench (konkurriert mit Claude 3.7 Sonnet)
Mathe/Logik: MATH-500- und AIME-Ergebnisse über allen Open-Weight-Vorgängern
Multimodal: Bild- und Videoverstehen vergleichbar mit GPT-4V
Langer Kontext: 1M Token Fenster für die Analyse ganzer Codebasen

hashtagWesentliche Spezifikationen

hashtagWarum DeepSeek V4?

hashtagAnforderungen

hashtagOption A — Quantisiert via Ollama (Einfachste Option, sobald verfügbar)

hashtagOption B — vLLM (Produktions-API, hoher Durchsatz)

hashtagOption C — llama.cpp (CPU+GPU, quantisiert)

hashtagGPU-Empfehlungen auf Clore.ai

hashtagClore.ai Portweiterleitung

hashtagLeistungstipps

hashtagWas zu erwarten ist

hashtagLinks

Wesentliche Spezifikationen

Warum DeepSeek V4?

Anforderungen

Option A — Quantisiert via Ollama (Einfachste Option, sobald verfügbar)

Option B — vLLM (Produktions-API, hoher Durchsatz)

Option C — llama.cpp (CPU+GPU, quantisiert)

GPU-Empfehlungen auf Clore.ai

Clore.ai Portweiterleitung

Leistungstipps

Was zu erwarten ist

Links