# DeepSeek V4 (1T MoE, мультимодальный)

{% hint style="info" %}
**Статус (4 марта 2026):** Релиз DeepSeek V4 близок — ожидается в первую неделю марта 2026 г. Это руководство охватывает настройку с использованием vLLM/Ollama после появления весов на HuggingFace. Проверьте [huggingface.co/deepseek-ai](https://huggingface.co/deepseek-ai) для последнего релиза.
{% endhint %}

DeepSeek V4 — самая ожидаемая модель с открытыми весами начала 2026 года — **\~1 триллион параметров мульти модальная MoE** от DeepSeek AI, обученная на последних чипах NVIDIA и оптимизированная для оборудования Huawei Ascend. С \~32B активных параметров на токен она обеспечивает передовое качество при доле вычислительных затрат.

### Ключевые характеристики

| Параметр           | Значение                                 |
| ------------------ | ---------------------------------------- |
| Всего параметров   | \~1 триллион (MoE)                       |
| Активные параметры | \~32B за один прямой проход              |
| Окно контекста     | 1M токенов                               |
| Модальности        | Текст + Изображение + Видео              |
| Лицензия           | Ожидается MIT (как у V3)                 |
| Бенчмарки          | Ожидается лидерство в открытых рейтингах |

### Почему DeepSeek V4?

* **Модель №1 с открытыми весами** — разработана, чтобы превзойти V3 и соперничать с GPT-4.5/Claude Opus
* **Мультимодальная** — нативно обрабатывает текст, изображения и видео
* **1M контекста** — RAG для длинных документов, целые кодовые базы в контексте
* **Лицензия MIT** — разрешено коммерческое использование, без ограничений
* **Огромная эффективность** — всего 32B активных параметров при 1T общих

***

## Требования

| Компонент | Минимум                   | Рекомендуется         |
| --------- | ------------------------- | --------------------- |
| VRAM GPU  | 2× RTX 4090 (48GB) для Q4 | 4× A100 80GB для FP16 |
| ОЗУ       | 64GB                      | 128GB                 |
| Диск      | 500GB (квантованный)      | 2TB (FP16)            |
| CUDA      | 12.4+                     | 12.6+                 |

{% hint style="warning" %}
**Внимание: большая модель:** DeepSeek V4 в FP16 требует \~2TB VRAM на нескольких A100/H100. Для практического использования на одном/двух узлах подождите GGUF Q4 квантизации (ожидается в течение дней после релиза). Q4\_K\_M при \~1T параметров ≈ \~500GB — используйте мультиузлы или 8-битную квантизацию на 4× RTX 4090.
{% endhint %}

***

## Вариант A — квантование через Ollama (проще всего, когда появится)

Ollama добавит модели DeepSeek V4 в течение нескольких часов после появления весов.

```yaml
version: "3.8"
services:
  ollama:
    image: ollama/ollama:latest
    ports:
      - "11434:11434"
    volumes:
      - ollama_data:/root/.ollama
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    environment:
      - OLLAMA_KEEP_ALIVE=24h
      - OLLAMA_MAX_LOADED_MODELS=1

volumes:
  ollama_data:
```

```bash
# Скачайте и запустите DeepSeek V4 (обновите тег после релиза)
docker exec ollama ollama pull deepseek-v4:32b-q4_K_M
docker exec ollama ollama run deepseek-v4:32b-q4_K_M

# Или через Open WebUI для полного чат-интерфейса
docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  ghcr.io/open-webui/open-webui:main
```

***

## Вариант B — vLLM (Production API, высокая пропускная способность)

```yaml
version: "3.8"
services:
  vllm:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - hf_cache:/root/.cache/huggingface
    command: >
      --model deepseek-ai/DeepSeek-V4
      --tensor-parallel-size 4
      --max-model-len 32768
      --dtype bfloat16
      --gpu-memory-utilization 0.92
      --served-model-name deepseek-v4
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    shm_size: "16gb"

volumes:
  hf_cache:
```

```bash
# Проверьте API
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4",
    "messages": [{"role": "user", "content": "Объясни квантовую запутанность просто"}],
    "max_tokens": 512
  }'
```

***

## Вариант C — llama.cpp (CPU+GPU, квантованная)

```bash
# Как только GGUF-файлы появятся на HuggingFace
docker run --gpus all -it --rm \
  -p 8080:8080 \
  -v $(pwd)/models:/models \
  ghcr.io/ggerganov/llama.cpp:server-cuda \
  -m /models/deepseek-v4-q4_k_m.gguf \
  --n-gpu-layers 80 \
  --threads 8 \
  --ctx-size 8192 \
  --port 8080 \
  --host 0.0.0.0
```

***

## Рекомендации по GPU на Clore.ai

| Настройка    | VRAM  | Ожидаемая производительность       | Стоимость на Clore.ai |
| ------------ | ----- | ---------------------------------- | --------------------- |
| 2× RTX 4090  | 48GB  | Квантованный Q4, \~15 ток/с        | \~$4–5/день           |
| 4× RTX 4090  | 96GB  | Квантование Q5/Q8, \~25 ток/с      | \~$8–10/день          |
| 4× A100 80GB | 320GB | BF16 MoE шардирование, быстро      | \~$15–20/день         |
| 8× H100 80GB | 640GB | Полный FP16, максимальная скорость | \~$50+/день           |

{% hint style="success" %}
**Лучшее соотношение на Clore.ai:** Арендуйте 2× RTX 4090 (доступно примерно от \~$4/день) для Q4 квантованного DeepSeek V4. Ожидайте 10–20 токенов/сек — идеально для личного использования и разработки.
{% endhint %}

***

## Проброс портов Clore.ai

Добавьте эти порты в конфигурацию портов контейнера Clore.ai:

| Порт  | Сервис                        |
| ----- | ----------------------------- |
| 11434 | Ollama API                    |
| 8000  | vLLM OpenAI-совместимый API   |
| 8080  | llama.cpp сервер / Open WebUI |
| 3000  | Чат-интерфейс Open WebUI      |

***

## Советы по производительности

1. **Используйте квантизацию Q4\_K\_M** для лучшего компромисса качества/VRAM — все равно превосходит большинство моделей 70B
2. **Включите flash attention**: добавьте `--enable-chunked-prefill` в vLLM для длинных контекстов
3. **Тензорный параллелизм**: у vLLM `--tensor-parallel-size N` на N GPU работает бесшовно
4. **Длина контекста**: Начните с 8192 контекста на 2× 4090, увеличивайте при наличии VRAM
5. **BF16 > FP16** для MoE-моделей — меньше потерь точности на разреженных активациях

***

## Чего ожидать

На основе шаблонов DeepSeek V3 и предварительных бенчмарков:

* **Кодирование:** Ожидается высший уровень в SWE-bench (соперничая с Claude 3.7 Sonnet)
* **Математика/рассуждение:** Результаты MATH-500 и AIME выше всех прежних моделей с открытыми весами
* **Мультимодальность:** Понимание изображений и видео сопоставимо с GPT-4V
* **Длинный контекст:** Окно в 1M токенов для анализа всей кодовой базы

***

## Ссылки

* **HuggingFace:** [huggingface.co/deepseek-ai](https://huggingface.co/deepseek-ai) (веса появятся здесь)
* **GitHub:** [github.com/deepseek-ai](https://github.com/deepseek-ai)
* **Руководство по DeepSeek V3 (текущее):** [DeepSeek-V3](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/deepseek-v3)
* **Руководство по DeepSeek-R1:** [DeepSeek-R1](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/deepseek-r1)
* **Маркетплейс Clore.ai:** [clore.ai/marketplace](https://clore.ai/marketplace)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/deepseek-v4.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
