DeepSeek V4 (1T MoE, мультимодальная)

Разверните DeepSeek V4 — мультимодальную модель с триллионом параметров и открытым весом — на GPU-серверах Clore.ai

circle-info

Статус (4 марта 2026): Релиз DeepSeek V4 близок — ожидается в первую неделю марта 2026 г. Это руководство охватывает настройку с использованием vLLM/Ollama после появления весов на HuggingFace. Проверьте huggingface.co/deepseek-aiarrow-up-right для последнего релиза.

DeepSeek V4 — самая ожидаемая модель с открытыми весами начала 2026 года — ~1 триллион параметров мульти модальная MoE от DeepSeek AI, обученная на последних чипах NVIDIA и оптимизированная для оборудования Huawei Ascend. С ~32B активных параметров на токен она обеспечивает передовое качество при доле вычислительных затрат.

Ключевые характеристики

Параметр
Значение

Всего параметров

~1 триллион (MoE)

Активные параметры

~32B за один прямой проход

Окно контекста

1M токенов

Модальности

Текст + Изображение + Видео

Лицензия

Ожидается MIT (как у V3)

Бенчмарки

Ожидается лидерство в открытых рейтингах

Почему DeepSeek V4?

  • Модель №1 с открытыми весами — разработана, чтобы превзойти V3 и соперничать с GPT-4.5/Claude Opus

  • Мультимодальная — нативно обрабатывает текст, изображения и видео

  • 1M контекста — RAG для длинных документов, целые кодовые базы в контексте

  • Лицензия MIT — разрешено коммерческое использование, без ограничений

  • Огромная эффективность — всего 32B активных параметров при 1T общих


Требования

Компонент
Минимум
Рекомендуется

VRAM GPU

2× RTX 4090 (48GB) для Q4

4× A100 80GB для FP16

ОЗУ

64GB

128GB

Диск

500GB (квантованный)

2TB (FP16)

CUDA

12.4+

12.6+

circle-exclamation

Вариант A — квантование через Ollama (проще всего, когда появится)

Ollama добавит модели DeepSeek V4 в течение нескольких часов после появления весов.


Вариант B — vLLM (Production API, высокая пропускная способность)


Вариант C — llama.cpp (CPU+GPU, квантованная)


Рекомендации по GPU на Clore.ai

Настройка
VRAM
Ожидаемая производительность
Стоимость на Clore.ai

2× RTX 4090

48GB

Квантованный Q4, ~15 ток/с

~$4–5/день

4× RTX 4090

96GB

Квантование Q5/Q8, ~25 ток/с

~$8–10/день

4× A100 80GB

320GB

BF16 MoE шардирование, быстро

~$15–20/день

8× H100 80GB

640GB

Полный FP16, максимальная скорость

~$50+/день

circle-check

Проброс портов Clore.ai

Добавьте эти порты в конфигурацию портов контейнера Clore.ai:

Порт
Сервис

11434

Ollama API

8000

vLLM OpenAI-совместимый API

8080

llama.cpp сервер / Open WebUI

3000

Чат-интерфейс Open WebUI


Советы по производительности

  1. Используйте квантизацию Q4_K_M для лучшего компромисса качества/VRAM — все равно превосходит большинство моделей 70B

  2. Включите flash attention: добавьте --enable-chunked-prefill в vLLM для длинных контекстов

  3. Тензорный параллелизм: у vLLM --tensor-parallel-size N на N GPU работает бесшовно

  4. Длина контекста: Начните с 8192 контекста на 2× 4090, увеличивайте при наличии VRAM

  5. BF16 > FP16 для MoE-моделей — меньше потерь точности на разреженных активациях


Чего ожидать

На основе шаблонов DeepSeek V3 и предварительных бенчмарков:

  • Кодирование: Ожидается высший уровень в SWE-bench (соперничая с Claude 3.7 Sonnet)

  • Математика/рассуждение: Результаты MATH-500 и AIME выше всех прежних моделей с открытыми весами

  • Мультимодальность: Понимание изображений и видео сопоставимо с GPT-4V

  • Длинный контекст: Окно в 1M токенов для анализа всей кодовой базы


Ссылки

Последнее обновление

Это было полезно?