# DeepSeek V4 (1.6T MoE, мультимодальная)

{% hint style="info" %}
**Статус (29 апреля 2026):** DeepSeek V4 вышел **22 апреля 2026 года** с **полностью открытыми весами под лицензией MIT**. Доступны два чекпойнта: [deepseek-ai/DeepSeek-V4-Pro](https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro) (1,6T всего / \~49B активных, контекст 1M) и [deepseek-ai/DeepSeek-V4-Flash](https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash) (284B всего / \~13B активных). Модель Pro уже превысила **174K загрузок за первую неделю**, с поддержкой в день релиза в vLLM и SGLang.
{% endhint %}

DeepSeek V4 — первая открытая по весам frontier-модель 2026 года, выпущенная в виде **двухуровневого релиза**. **V4-Pro** — флагманская версия, **MoE-модель с 1,6 трлн параметров** примерно с **49B активных параметров на токен**, **окном контекста на 1M токенов**и гибридной схемой внимания, которая сочетает Compressed Sparse Attention с новой головой Heavily Compressed Attention для дешёвого предварительного прогона на длинном контексте. **V4-Flash** — практичный собрат, **284B всего / 13B активных**, та же архитектура, помещается на один GPU 80GB при квантизации и уверенно работает на сервере 2×48GB со сборками Unsloth GGUF.

Заголовок здесь — архитектура. Гибридное внимание DeepSeek резко уменьшает потребление памяти KV-cache на длинном контексте, а роутер MoE был переобучен для более точного выбора экспертов — ранние независимые прогоны показывают, что Pro достигает кодинговых результатов уровня V3 примерно при вдвое меньших вычислениях по активным параметрам. Для пользователей Clore.ai это важно, потому что **V4-Flash — это первый случай, когда frontier-модель с менее чем 15B активных параметров вышла с полными весами**, открывая серьёзный open inference на одном H100 или дешёвом многокарточном сервере с 4090.

Для большинства команд реалистичное развертывание в Clore — это **V4-Flash на 1× A100 80GB или 2× RTX 4090** — именно там находится лучшее соотношение цены и производительности. V4-Pro предназначен для серьёзной инфраструктуры: 8× H100, 4× H200 или 8× B200, в идеале с NVLink. Если вы уже запускали [DeepSeek V3](/guides/guides_v2-ru/yazykovye-modeli/deepseek-v3.md) или [DeepSeek-R1](/guides/guides_v2-ru/yazykovye-modeli/deepseek-r1.md), путь миграции прост — та же семейство модели, тот же шаблон чата, замена без изменений в vLLM.

### Ключевые характеристики

| Параметр               | DeepSeek V4-Pro                                                                   | DeepSeek V4-Flash                                                                     |
| ---------------------- | --------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------- |
| Общее число параметров | 1,6T (MoE)                                                                        | 284B (MoE)                                                                            |
| Активные параметры     | \~49B на токен                                                                    | \~13B на токен                                                                        |
| Окно контекста         | 1 000 000 токенов                                                                 | 256 000 токенов                                                                       |
| Внимание               | Compressed Sparse + Heavily Compressed Attention                                  | Compressed Sparse + HCA                                                               |
| Лицензия               | MIT                                                                               | MIT                                                                                   |
| Дата выпуска           | 22 апреля 2026 года                                                               | 22 апреля 2026 года                                                                   |
| HuggingFace            | [deepseek-ai/DeepSeek-V4-Pro](https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro) | [deepseek-ai/DeepSeek-V4-Flash](https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash) |
| Основные инструменты   | vLLM, SGLang (в день релиза)                                                      | vLLM, SGLang, llama.cpp (Unsloth GGUF)                                                |

### Зачем DeepSeek V4?

* **По-настоящему открытые frontier-веса** — лицензия MIT, без ограничений на использование, полная коммерческая эксплуатация
* **1M контекста у Pro, 256K у Flash** — обрабатывает целые кодовые базы, книги или многочасовые транскрипты за один проход
* **Гибридное разреженное внимание** — KV cache растёт сублинейно на длинном контексте, prefill дешёвый
* **Двухуровневый релиз** — Flash — первая MoE-модель с 13B активных параметров, достаточно хорошая, чтобы заменить V3 в большинстве рабочих процессов
* **Поддержка vLLM и SGLang в день релиза** — не нужно ждать патчи от сообщества, просто `pip install -U` и вперёд
* **Эффективность MoE** — вы платите за инференс 13B/49B, а не 284B/1.6T

***

## Требования

{% hint style="warning" %}
**V4-Pro — frontier-модель.** Полные веса BF16 занимают \~3,2 ТБ и требуют multi-node H100/H200 или 8× B200 NVLink. Пути BF16 на одном сервере нет. Если у вас нет multi-node инфраструктуры, запускайте V4-Flash — это 80% качества при 5% стоимости железа.
{% endhint %}

| Компонент | Минимум (V4-Flash, GGUF Q4) | Рекомендуется (V4-Flash FP8)  | Полный V4-Pro (BF16)             |
| --------- | --------------------------- | ----------------------------- | -------------------------------- |
| GPU VRAM  | 1× 80GB или 2× 48GB         | 1× H100 80GB или 1× A100 80GB | 8× H100 80GB или 4× H200 141GB   |
| RAM       | 64GB                        | 128GB                         | 1TB+                             |
| Диск      | 200GB NVMe                  | 600GB NVMe                    | 4TB NVMe                         |
| CUDA      | 12.4+                       | 12.6+                         | 12.6+                            |
| Сеть      | —                           | —                             | NVLink / 400Gb IB для multi-node |

**Выбор Clore.ai:** Для 95% пользователей, **V4-Flash на одном A100 80GB в FP8** — это золотая середина: полный контекст 256K, без потери от квантизации, примерно $5–7 в день на маркетплейсе. Переходите на [H100](https://clore.ai/rent-h100.html) или [H200](https://clore.ai/rent-h200.html) tensor-parallel setup только когда вам действительно нужен контекст V4-Pro на 1M или дополнительный запас для reasoning.

***

## Вариант A — Ollama / GGUF (квантизовано, только V4-Flash)

Unsloth выпустил GGUF-кванты для V4-Flash в течение 48 часов после релиза. Q4\_K\_M — лучший вариант: помещается на 1× 80GB или 2× 48GB и по качеству близок к FP8.

```bash
# Скачать сборку Unsloth Q4_K_M
docker exec ollama ollama pull hf.co/unsloth/DeepSeek-V4-Flash-GGUF:Q4_K_M
docker exec ollama ollama run hf.co/unsloth/DeepSeek-V4-Flash-GGUF:Q4_K_M

# Или с llama.cpp напрямую на скачанном GGUF
docker run --gpus all -it --rm -p 8080:8080 \
  -v $(pwd)/models:/models \
  ghcr.io/ggerganov/llama.cpp:server-cuda \
  -m /models/DeepSeek-V4-Flash-Q4_K_M.gguf \
  --n-gpu-layers 99 --ctx-size 65536 \
  --port 8080 --host 0.0.0.0
```

{% hint style="info" %}
GGUF-кванты для V4-**Pro** существуют, но непрактичны — даже Q2\_K занимает \~400GB, а производительность offload непригодна для чата. Для квантизированных развёртываний используйте Flash.
{% endhint %}

***

## Вариант B — vLLM (production API, рекомендуется)

vLLM 0.7.x добавил поддержку обоих V4-чекпойнтов в день релиза. Гибридным attention-ядрам нужны `--trust-remote-code` и железо Hopper или Blackwell для полной скорости.

**V4-Flash на одном H100 / A100 80GB:**

```yaml
version: "3.8"
services:
  vllm:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - hf_cache:/root/.cache/huggingface
    command: >
      --model deepseek-ai/DeepSeek-V4-Flash
      --tensor-parallel-size 1
      --max-model-len 131072
      --dtype bfloat16
      --gpu-memory-utilization 0.92
      --enable-chunked-prefill
      --served-model-name deepseek-v4-flash
      --trust-remote-code
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    shm_size: "16gb"

volumes:
  hf_cache:
```

**V4-Pro на 8× H100 80GB:** замените команду на:

```yaml
    command: >
      --model deepseek-ai/DeepSeek-V4-Pro
      --tensor-parallel-size 8
      --max-model-len 262144
      --dtype bfloat16
      --gpu-memory-utilization 0.90
      --enable-chunked-prefill
      --enable-prefix-caching
      --served-model-name deepseek-v4-pro
      --trust-remote-code
```

```bash
# Проверить API
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4-flash",
    "messages": [{"role": "user", "content": "Write a Rust async TCP echo server with graceful shutdown."}],
    "max_tokens": 2048,
    "temperature": 0.6
  }'
```

{% hint style="info" %}
Начните с `--max-model-len 131072` даже если в итоге вам нужен полный контекст 1M — длинные контексты резко увеличивают время prefill и расход KV-памяти. Увеличивайте его только после того, как базовый вариант станет стабильным.
{% endhint %}

***

## Вариант C — SGLang (альтернатива, часто быстрее на Hopper)

RadixAttention и prefix caching в SGLang хорошо сочетаются с гибридным attention V4 — для агентных задач с общими промптами ожидайте заметно лучшего tok/s, чем у vLLM.

```bash
docker pull lmsysorg/sglang:latest

# V4-Flash на 1× H100/A100
python3 -m sglang.launch_server \
  --model-path deepseek-ai/DeepSeek-V4-Flash \
  --tp-size 1 \
  --context-length 131072 \
  --mem-fraction-static 0.90 \
  --enable-torch-compile \
  --served-model-name deepseek-v4-flash \
  --trust-remote-code

# V4-Pro на 8× H100
python3 -m sglang.launch_server \
  --model-path deepseek-ai/DeepSeek-V4-Pro \
  --tp-size 8 \
  --context-length 262144 \
  --mem-fraction-static 0.88 \
  --enable-torch-compile \
  --served-model-name deepseek-v4-pro \
  --trust-remote-code
```

SGLang's `--enable-torch-compile` обычно добавляет ещё 10–20% пропускной способности на Hopper после первоначального прогрева.

***

## Рекомендации по GPU для Clore.ai

| Конфигурация                                               | Модель                                 | VRAM       | Ожидаемая производительность                            | Стоимость на Clore.ai |
| ---------------------------------------------------------- | -------------------------------------- | ---------- | ------------------------------------------------------- | --------------------- |
| 2× [RTX 4090](https://clore.ai/rent-4090.html) (Q4 GGUF)   | V4-Flash                               | 48GB       | Хобби-использование, один поток                         | \~$2–3/день           |
| 1× [A100 80GB](https://clore.ai/rent-a100-80gb.html) (FP8) | V4-Flash                               | 80GB       | Надёжный production для одного арендатора               | \~$5–7/день           |
| 1× RTX 5090 32GB (Q4 GGUF, частичный offload)              | V4-Flash                               | 32GB + RAM | Ограниченный, только для разработки                     | \~$3.94/час на пике   |
| 4× [H100 80GB](https://clore.ai/rent-h100.html)            | V4-Flash FP8 (избыточно) или V4-Pro Q4 | 320GB      | Flash для нескольких арендаторов, Pro в один поток      | \~$24–32/день         |
| 8× [H100 80GB](https://clore.ai/rent-h100.html)            | V4-Pro BF16                            | 640GB      | Production inference frontier-уровня                    | \~$48–64/день         |
| 4× [H200 141GB](https://clore.ai/rent-h200.html)           | V4-Pro BF16 + 1M ctx                   | 564GB      | Полный контекст 1M, максимальная пропускная способность | \~$32–48/день         |

{% hint style="success" %}
**Лучшее соотношение цены и качества на Clore.ai:** 1× A100 80GB с V4-Flash FP8. Вы получаете контекст 256K, стоимость инференса примерно как у 13B active, без потерь от квантизации, а счёт примерно равен цене подписки на Claude Sonnet API — при этом веса остаются у вас на машине.
{% endhint %}

***

## Сценарии использования

* **Рассуждения по всей кодовой базе** — контекст 1M у V4-Pro помещает типичный монорепозиторий на 500K LOC вместе с тестами в один промпт
* **RAG для длинных текстов** — загружайте в контекст целые книги, судебные документы или годовые отчёты, пропуская пайплайн чанкинга
* **Агентное программирование** — V4-Flash соответствует V3 на SWE-Bench при значительно меньшей стоимости инференса; используйте вместе с SWE-agent или OpenHands
* **Синтез по нескольким документам** — исследовательские workflows, которые раньше требовали Gemini 2.5 Pro, теперь работают на вашем собственном железе
* **Самостоятельно размещаемая замена Cursor / Copilot** — V4-Flash на одном A100 обеспечивает работу команды из 5 разработчиков
* **База для fine-tuning** — лицензия MIT + чистая MoE-архитектура делают его сильной отправной точкой для дообучений под домен

***

## Бенчмарки

{% hint style="warning" %}
**Указано производителем — проверяйте независимо.** Ниже приведённые числа взяты из анонса DeepSeek от 22 апреля 2026 года и model card. Независимые воспроизведения всё ещё публикуются; воспринимайте это как ориентир, а не как истину в последней инстанции.
{% endhint %}

| Бенчмарк                                 | V4-Pro | V4-Flash | DeepSeek V3 | GLM-5.1 |
| ---------------------------------------- | ------ | -------- | ----------- | ------- |
| MMLU-Pro                                 | \~84%  | \~78%    | \~76%       | \~80%   |
| SWE-Bench Verified                       | \~82%  | \~74%    | \~70%       | \~79%   |
| HumanEval                                | \~96%  | \~92%    | \~91%       | \~94%   |
| MATH-500                                 | \~94%  | \~88%    | \~85%       | \~90%   |
| LiveCodeBench                            | \~76%  | \~68%    | \~62%       | \~72%   |
| Длинный контекст (1M needle-in-haystack) | \~98%  | н/д      | н/д         | н/д     |

Для сравнения open-weight «яблоко к яблоку» смотрите [гайд по GLM-5.1](/guides/guides_v2-ru/yazykovye-modeli/glm-5-1.md) — V4-Pro и GLM-5.1 обмениваются ударами в зависимости от бенчмарка.

***

## Устранение неполадок

| Проблема                                     | Решение                                                                                                                                                                                                |
| -------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ |
| `OutOfMemoryError` загрузка V4-Pro на 8×H100 | BF16 требует \~3,2 ТБ — Pro не поместится на одном узле 8×H100. Используйте 4× H200 141GB или multi-node.                                                                                              |
| `неподдерживаемый backend внимания`          | Для V4 нужен vLLM ≥ 0.7.0 или SGLang ≥ 0.4.4. Запустите `pip install -U vllm` (или pull `:latest` Docker-образ).                                                                                       |
| Медленная загрузка с HuggingFace             | Используйте `huggingface-cli download deepseek-ai/DeepSeek-V4-Flash --local-dir ./weights --resume-download`. Pro — \~3,2 ТБ; Flash — \~570GB.                                                         |
| `--trust-remote-code` отклонено              | Модули гибридного attention поставляются как пользовательский код в репозитории — `--trust-remote-code` он нужен для обоих движков, пока ядра не попадут в upstream Transformers.                      |
| GGUF Q4 выдаёт бессмыслицу                   | Убедитесь, что вы используете сборку Unsloth (`unsloth/DeepSeek-V4-Flash-GGUF`), а не ранний community quant. Роутер MoE требует специальной обработки, которую ранние кванты реализовали неправильно. |
| OOM при контексте 1M на V4-Pro               | Опуститесь до `--max-model-len 262144` и добавьте `--enable-prefix-caching`. Для настоящего обслуживания 1M нужен H200 или B200.                                                                       |
| Медленный prefill на длинном контексте       | Это ожидаемо — даже с гибридным attention prefill на 500K+ занимает минуты, а не секунды. Используйте `--enable-chunked-prefill` и prefix caching для амортизации.                                     |

***

## Следующие шаги

* **Предшественник:** [DeepSeek V3](/guides/guides_v2-ru/yazykovye-modeli/deepseek-v3.md) — модель, которую V4-Flash фактически заменяет
* **Собрат по reasoning:** [DeepSeek-R1](/guides/guides_v2-ru/yazykovye-modeli/deepseek-r1.md) — оптимизирована под chain-of-thought, всё ещё полезна для задач с упором на математику
* **Открытая альтернатива по весам:** [GLM-5.1](/guides/guides_v2-ru/yazykovye-modeli/glm-5-1.md) — 744B MoE, лидер SWE-Bench Pro, сопоставимое соотношение цены и производительности
* **Мультимодальная альтернатива:** [Qwen3.5-Omni](/guides/guides_v2-ru/yazykovye-modeli/qwen35-omni.md) — если вам нужны vision/audio в той же модели
* **Аренда железа:** [маркетплейс Clore.ai](https://clore.ai/marketplace) — H100/H200/A100/RTX 4090 от $0.50/день

### Ссылки

* [DeepSeek-V4-Pro на HuggingFace](https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro)
* [DeepSeek-V4-Flash на HuggingFace](https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash)
* [Unsloth V4-Flash GGUF-кванты](https://huggingface.co/unsloth/DeepSeek-V4-Flash-GGUF)
* [DeepSeek GitHub](https://github.com/deepseek-ai)
* [документация vLLM](https://docs.vllm.ai)
* [репозиторий SGLang](https://github.com/sgl-project/sglang)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/deepseek-v4.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.