DeepSeek V4 (1T MoE, Multimodal)

Stelle DeepSeek V4 bereit – das Billionen-Parameter multimodale Open-Weight-Modell – auf Clore.ai GPU-Servern

circle-info

Status (4. März 2026): Die Veröffentlichung von DeepSeek V4 steht bevor — voraussichtlich in der ersten Märzwoche 2026. Diese Anleitung behandelt die Einrichtung mit vLLM/Ollama, sobald die Gewichte auf HuggingFace verfügbar sind. Prüfe huggingface.co/deepseek-aiarrow-up-right für die neueste Version.

DeepSeek V4 ist das meist erwartete Open-Weight-Modell Anfang 2026 — ein ~1 Billion Parameter Multimodal-MoE von DeepSeek AI, trainiert auf NVIDIAs neuesten Chips und für Huawei Ascend-Hardware optimiert. Mit ~32B aktiven Parametern pro Token liefert es Spitzenleistung zu einem Bruchteil der Rechenkosten.

Wesentliche Spezifikationen

Eigenschaft
Wert

Gesamtparameter

~1 Billion (MoE)

Aktive Parameter

~32B pro Vorwärtsdurchlauf

Kontextfenster

1M Tokens

Modalitäten

Text + Bild + Video

Lizenz

Erwartet: MIT (wie V3)

Benchmark

Wird voraussichtlich die Open-Source-Ranglisten anführen

Warum DeepSeek V4?

  • #1 Open-Weight-Modell — entwickelt, um V3 zu übertreffen und mit GPT-4.5/Claude Opus zu konkurrieren

  • Multimodal — behandelt nativ Text-, Bild- und Videoeingaben

  • 1M Kontext — RAG für lange Dokumente, gesamte Codebasen im Kontext

  • MIT-Lizenz — kommerzielle Nutzung erlaubt, keine Beschränkungen

  • Enorme Effizienz — nur 32B aktive Parameter trotz 1T Gesamtparametern


Anforderungen

Komponente
Minimum
Empfohlen

GPU-VRAM

2× RTX 4090 (48GB) für Q4

4× A100 80GB für FP16

RAM

64GB

128GB

Festplatte

500GB (quantisiert)

2TB (FP16)

CUDA

12.4+

12.6+

circle-exclamation

Option A — Quantisiert via Ollama (Einfachste Option, sobald verfügbar)

Ollama wird DeepSeek V4-Modelle innerhalb weniger Stunden nach Freigabe der Gewichte hinzufügen.


Option B — vLLM (Produktions-API, hoher Durchsatz)


Option C — llama.cpp (CPU+GPU, quantisiert)


GPU-Empfehlungen auf Clore.ai

Einrichtung
VRAM
Erwartete Leistung
Clore.ai Kosten

2× RTX 4090

48GB

Q4 quantisiert, ~15 Tok/s

~$4–5/Tag

4× RTX 4090

96GB

Q5/Q8 quantisiert, ~25 Tok/s

~$8–10/Tag

4× A100 80GB

320GB

BF16 MoE-Sharding, schnell

~$15–20/Tag

8× H100 80GB

640GB

Volles FP16, maximale Geschwindigkeit

~$50+/Tag

circle-check

Clore.ai Portweiterleitung

Füge diese zu deiner Portkonfiguration des Clore.ai-Containers hinzu:

Port
Dienst

11434

Ollama-API

8000

vLLM OpenAI-kompatible API

8080

llama.cpp-Server / Open WebUI

3000

Open WebUI Chat-Oberfläche


Leistungstipps

  1. Verwende Q4_K_M-Quantisierung für das beste Qualitäts-/VRAM-Verhältnis — übertrifft dennoch die meisten 70B-Modelle

  2. Aktiviere Flash-Attention: füge hinzu --enable-chunked-prefill in vLLM für lange Kontexte

  3. Tensorparallellismus: vLLMs --tensor-parallel-size N über N GPUs ist nahtlos

  4. Kontextlänge: Beginne mit 8192 Kontext auf 2× 4090, erhöhe, wenn VRAM es zulässt

  5. BF16 > FP16 für MoE-Modelle — weniger Präzisionsverlust bei sparsamen Aktivierungen


Was zu erwarten ist

Basierend auf DeepSeek V3-Mustern und Vorab-Benchmarks:

  • Programmierung: Erwartet Top-Leistung bei SWE-bench (konkurriert mit Claude 3.7 Sonnet)

  • Mathe/Logik: MATH-500- und AIME-Ergebnisse über allen Open-Weight-Vorgängern

  • Multimodal: Bild- und Videoverstehen vergleichbar mit GPT-4V

  • Langer Kontext: 1M Token Fenster für die Analyse ganzer Codebasen


Zuletzt aktualisiert

War das hilfreich?