# DeepSeek-V3

Запустите DeepSeek-V3, передовую открытую LLM с выдающимися способностями к рассуждению на GPU CLORE.AI.

{% hint style="success" %}
Все примеры можно запускать на GPU-серверах, арендуемых через [CLORE.AI Marketplace](https://clore.ai/marketplace).
{% endhint %}

{% hint style="info" %}
**Обновлено: DeepSeek-V3-0324 (март 2024)** — Последняя версия DeepSeek-V3 приносит значительные улучшения в генерации кода, математическом рассуждении и общем решении задач. См. [журнал изменений](#whats-new-in-deepseek-v3-0324) для подробностей.
{% endhint %}

## Почему DeepSeek-V3?

* **Передовой уровень** - Соперничает с GPT-4o и Claude 3.5 Sonnet
* **671B MoE** - 671B параметров всего, 37B активных на токен (эффективный вывод)
* **Улучшенное рассуждение** - DeepSeek-V3-0324 значительно лучше в математике и коде
* **Эффективно** - Архитектура MoE снижает затраты вычислений по сравнению с плотными моделями
* **Открытый исходный код** - Полностью открытые веса под лицензией MIT
* **Длинный контекст** - Контекстное окно 128K токенов

## Что нового в DeepSeek-V3-0324

DeepSeek-V3-0324 (ревизия марта 2024) вводит значимые улучшения в ключевых областях:

### Генерация кода

* **+8-12% по HumanEval** по сравнению с оригинальным V3
* Лучше работает с многофайловыми кодовыми базами и сложными задачами рефакторинга
* Улучшенное понимание современных фреймворков (FastAPI, Pydantic v2, LangChain v0.3)
* Более надежен при генерации полного, исполняемого кода без пропусков

### Математическое рассуждение

* **+5% по MATH-500** бенчмарку
* Лучшее пошаговое построение доказательств
* Улучшенная числовая точность для многошаговых задач
* Повышенная способность выявлять и исправлять ошибки в середине решения

### Общее рассуждение

* Сильнее логические выводы и причинно-следственные умозаключения
* Лучше в задачах планирования с несколькими шагами
* Более последовательная работа на пограничных случаях и в неоднозначных подсказках
* Улучшенное следование инструкциям при сложных запросах с множественными ограничениями

## Быстрое развертывание на CLORE.AI

**Docker-образ:**

```
vllm/vllm-openai:latest
```

**Порты:**

```
22/tcp
8000/http
```

**Команда (требуется несколько GPU):**

```bash
python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-V3-0324 \
    --host 0.0.0.0 \
    --port 8000 \
    --tensor-parallel-size 8 \
    --trust-remote-code
```

## Доступ к вашему сервису

После развертывания найдите ваш `http_pub` URL в **Моих заказах**:

1. Перейдите на **Моих заказах** страницу
2. Нажмите на ваш заказ
3. Найдите `http_pub` URL (например, `abc123.clorecloud.net`)

Используйте `https://YOUR_HTTP_PUB_URL` вместо `localhost` в примерах ниже.

### Проверьте, что всё работает

```bash
# Проверить, готова ли служба
curl https://your-http-pub.clorecloud.net/health

# Показать доступные модели
curl https://your-http-pub.clorecloud.net/v1/models

# Получить версию
curl https://your-http-pub.clorecloud.net/version
```

{% hint style="warning" %}
**Важно:** DeepSeek-V3 требует **8x A100 80GB** GPU и значительного времени загрузки. HTTP 502 может сохраняться в течение 15–30 минут, пока модель загружается.
{% endhint %}

## Варианты моделей

| Модель            | Параметры | Активен | Требуемая VRAM | HuggingFace                                                                                             |
| ----------------- | --------- | ------- | -------------- | ------------------------------------------------------------------------------------------------------- |
| DeepSeek-V3-0324  | 671B      | 37B     | 8x80GB         | [deepseek-ai/DeepSeek-V3-0324](https://huggingface.co/deepseek-ai/DeepSeek-V3-0324)                     |
| DeepSeek-V3       | 671B      | 37B     | 8x80GB         | [deepseek-ai/DeepSeek-V3](https://huggingface.co/deepseek-ai/DeepSeek-V3)                               |
| DeepSeek-V3-Base  | 671B      | 37B     | 8x80GB         | [deepseek-ai/DeepSeek-V3-Base](https://huggingface.co/deepseek-ai/DeepSeek-V3-Base)                     |
| DeepSeek-V2.5     | 236B      | 21B     | 4x80GB         | [deepseek-ai/DeepSeek-V2.5](https://huggingface.co/deepseek-ai/DeepSeek-V2.5)                           |
| DeepSeek-V2-Lite  | 16B       | 2.4B    | 16GB           | [deepseek-ai/DeepSeek-V2-Lite](https://huggingface.co/deepseek-ai/DeepSeek-V2-Lite)                     |
| DeepSeek-Coder-V2 | 236B      | 21B     | 4x80GB         | [deepseek-ai/DeepSeek-Coder-V2-Instruct](https://huggingface.co/deepseek-ai/DeepSeek-Coder-V2-Instruct) |

## Требования к аппаратному обеспечению

### Полная точность

| Модель           | Минимум       | Рекомендуется |
| ---------------- | ------------- | ------------- |
| DeepSeek-V3-0324 | 8x A100 80GB  | 8x H100 80GB  |
| DeepSeek-V2.5    | 4x A100 80GB  | 4x H100 80GB  |
| DeepSeek-V2-Lite | RTX 4090 24GB | A100 40GB     |

### Квантование (AWQ/GPTQ)

| Модель           | Квантование | VRAM    |
| ---------------- | ----------- | ------- |
| DeepSeek-V3-0324 | INT4        | 4x80GB  |
| DeepSeek-V2.5    | INT4        | 2x80 ГБ |
| DeepSeek-V2-Lite | INT4        | 8GB     |

## Установка

### Использование vLLM (рекомендуется)

```bash
pip install vllm==0.7.3

# DeepSeek-V3-0324 (последняя, 8 GPU)
python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-V3-0324 \
    --tensor-parallel-size 8 \
    --trust-remote-code \
    --host 0.0.0.0 \
    --port 8000

# Оригинальный V3 (всё ещё доступен)
python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-V3 \
    --tensor-parallel-size 8 \
    --trust-remote-code \
    --host 0.0.0.0 \
    --port 8000
```

### Использование Transformers

```python
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "deepseek-ai/DeepSeek-V3-0324"

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    trust_remote_code=True
)

messages = [{"role": "user", "content": "Объясните квантовые вычисления простыми словами."}]
inputs = tokenizer.apply_chat_template(messages, return_tensors="pt").to(model.device)

outputs = model.generate(inputs, max_new_tokens=512, temperature=0.7)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
```

### Использование Ollama

```bash
# Скачивание DeepSeek-V3 (требует значительных ресурсов)
ollama pull deepseek-v3

# Или облегчённый вариант
ollama pull deepseek-coder-v2:16b

# Запустить
ollama run deepseek-v3
```

## Использование API

### Совместимый с OpenAI API (vLLM)

```python
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="не_требуется"
)

response = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-V3-0324",
    messages=[
        {"role": "system", "content": "Вы полезный помощник ИИ."},
        {"role": "user", "content": "Напишите функцию на Python для поиска простых чисел."}
    ],
    temperature=0.7,
    max_tokens=1000
)

print(response.choices[0].message.content)
```

### Потоковая передача (Streaming)

```python
stream = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-V3-0324",
    messages=[{"role": "user", "content": "Объясните машинное обучение"}],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)
```

### cURL

```bash
curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "deepseek-ai/DeepSeek-V3-0324",
        "messages": [
            {"role": "user", "content": "Какова столица Франции?"}
        ],
        "temperature": 0.7
    }'
```

## DeepSeek-V2-Lite (один GPU)

Для пользователей с ограниченным оборудованием:

```bash
# Использование vLLM
python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-V2-Lite \
    --trust-remote-code \
    --host 0.0.0.0

# Использование Ollama
ollama run deepseek-coder-v2:16b
```

```python
# Использование Transformers на одном GPU
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model = AutoModelForCausalLM.from_pretrained(
    "deepseek-ai/DeepSeek-V2-Lite",
    torch_dtype=torch.float16,
    device_map="cuda",
    trust_remote_code=True
)
tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V2-Lite", trust_remote_code=True)
```

## Генерация кода

DeepSeek-V3-0324 — лучший в своём классе для кода:

```python
prompt = """Напишите класс на Python для двоичного дерева поиска с:
- вставкой
- поиском
- удалением
- обходом в порядке возрастания
Включите подсказки типов и докстринги."""

response = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-V3-0324",
    messages=[{"role": "user", "content": prompt}],
    temperature=0.2  # Ниже для кода
)

print(response.choices[0].message.content)
```

Продвинутые задачи с кодом, где V3-0324 превосходит:

```python
# Многофайловый рефакторинг
prompt = """У меня есть приложение Flask со всем кодом в app.py (500 строк).
Рефакторизуйте его, чтобы использовать шаблон factory приложения с blueprint-ами для:
- auth (вход, регистрация, выход)
- api (REST эндпоинты)
- admin (панель управления)
Покажите полную структуру файлов и все файлы."""

response = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-V3-0324",
    messages=[{"role": "user", "content": prompt}],
    temperature=0.1,
    max_tokens=4000
)
```

## Математика и рассуждение

```python
# Сложная математическая задача
prompt = """Докажите, что для любого целого n >= 1 сумма 1^2 + 2^2 + ... + n^2 = n(n+1)(2n+1)/6.
Используйте математическую индукцию и покажите все шаги ясно."""

response = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-V3-0324",
    messages=[{"role": "user", "content": prompt}],
    temperature=0.1  # Очень низкая для математики
)

print(response.choices[0].message.content)
```

## Конфигурация с несколькими GPU

### 8x GPU (Полная модель — V3-0324)

```bash
python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-V3-0324 \
    --tensor-parallel-size 8 \
    --max-model-len 32768 \
    --gpu-memory-utilization 0.9 \
    --trust-remote-code
```

### 4x GPU (V2.5)

```bash
python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-V2.5 \
    --tensor-parallel-size 4 \
    --max-model-len 16384 \
    --trust-remote-code
```

## Производительность

### Пропускная способность (токенов/сек)

| Модель                | GPU          | Контекст | Токенов/с |
| --------------------- | ------------ | -------- | --------- |
| DeepSeek-V3-0324      | 8x H100      | 32K      | \~85      |
| DeepSeek-V3-0324      | 8x A100 80GB | 32K      | \~52      |
| DeepSeek-V3-0324 INT4 | 4x A100 80GB | 16K      | \~38      |
| DeepSeek-V2.5         | 4x A100 80GB | 16K      | \~70      |
| DeepSeek-V2.5         | 2x A100 80GB | 8K       | \~45      |
| DeepSeek-V2-Lite      | RTX 4090     | 8K       | \~40      |
| DeepSeek-V2-Lite      | RTX 3090     | 4K       | \~25      |

### Время до первого токена (TTFT)

| Модель           | Конфигурация | TTFT     |
| ---------------- | ------------ | -------- |
| DeepSeek-V3-0324 | 8x H100      | \~750ms  |
| DeepSeek-V3-0324 | 8x A100      | \~1100ms |
| DeepSeek-V2.5    | 4x A100      | \~500ms  |
| DeepSeek-V2-Lite | RTX 4090     | \~150ms  |

### Использование памяти

| Модель           | Точность | Требуемая VRAM |
| ---------------- | -------- | -------------- |
| DeepSeek-V3-0324 | FP16     | 8x 80GB        |
| DeepSeek-V3-0324 | INT4     | 4x 80GB        |
| DeepSeek-V2.5    | FP16     | 4x 80GB        |
| DeepSeek-V2.5    | INT4     | 2x 80GB        |
| DeepSeek-V2-Lite | FP16     | 20GB           |
| DeepSeek-V2-Lite | INT4     | 10GB           |

## Бенчмарки

### DeepSeek-V3-0324 против конкурентов

| Бенчмарк           | V3-0324 | V3 (оригинал) | GPT-4o | Claude 3.5 Sonnet |
| ------------------ | ------- | ------------- | ------ | ----------------- |
| MMLU               | 88.5%   | 87.1%         | 88.7%  | 88.3%             |
| HumanEval          | 90.2%   | 82.6%         | 90.2%  | 92.0%             |
| MATH-500           | 67.1%   | 61.6%         | 76.6%  | 71.1%             |
| GSM8K              | 92.1%   | 89.3%         | 95.8%  | 96.4%             |
| LiveCodeBench      | 72.4%   | 65.9%         | 71.3%  | 73.8%             |
| Рейтинг Codeforces | 1850    | 1720          | 1780   | 1790              |

*Примечание: улучшение по MATH-500 от V3 → V3-0324 составляет +5.5 процентных пункта.*

## Docker Compose

```yaml
version: '3.8'

services:
  deepseek:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - ~/.cache/huggingface:/root/.cache/huggingface
    environment:
      - HUGGING_FACE_HUB_TOKEN=${HF_TOKEN}
    command: >
      --model deepseek-ai/DeepSeek-V2-Lite
      --host 0.0.0.0
      --port 8000
      --trust-remote-code
      --gpu-memory-utilization 0.9
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
```

## Краткое резюме требований к GPU

| Случай использования    | Рекомендуемая настройка | Стоимость/час |
| ----------------------- | ----------------------- | ------------- |
| Полный DeepSeek-V3-0324 | 8x A100 80GB            | \~$2.00       |
| DeepSeek-V2.5           | 4x A100 80GB            | \~$1.00       |
| Разработка/тестирование | RTX 4090 (V2-Lite)      | \~$0.10       |
| Продакшн API            | 8x H100 80GB            | \~$3.00       |

## Оценка стоимости

Типичные расценки на маркетплейсе CLORE.AI:

| Конфигурация GPU | Почасовая ставка | Дневная ставка |
| ---------------- | ---------------- | -------------- |
| RTX 4090 24GB    | \~$0.10          | \~$2.30        |
| A100 40GB        | \~$0.17          | \~$4.00        |
| A100 80GB        | \~$0.25          | \~$6.00        |
| 4x A100 80GB     | \~$1.00          | \~$24.00       |
| 8x A100 80GB     | \~$2.00          | \~$48.00       |

*Цены варьируются в зависимости от провайдера. Проверьте* [*CLORE.AI Marketplace*](https://clore.ai/marketplace) *для текущих тарифов.*

**Экономьте деньги:**

* Используйте **Spot** рынок для разработки (часто на 30–50% дешевле)
* Платите с помощью **CLORE** токенов
* Используйте DeepSeek-V2-Lite для тестирования перед масштабированием

## Устранение неполадок

### Недостаточно памяти

```bash
# Уменьшите длину контекста
--max-model-len 8192

# Или используйте квантизацию
--quantization awq

# Для V2-Lite на GPU с 12GB
--gpu-memory-utilization 0.85
--max-model-len 4096
```

### Медленная загрузка модели

```bash
# Предварительная загрузка
huggingface-cli download deepseek-ai/DeepSeek-V3-0324

# Или используйте зеркало
export HF_ENDPOINT=https://hf-mirror.com
```

### Ошибка trust\_remote\_code

```bash
# Всегда включайте этот флаг для моделей DeepSeek
--trust-remote-code
```

### Много-GPU не работает

```bash
# Проверьте NCCL
nvidia-smi topo -m

# Установите переменные NCCL
export NCCL_DEBUG=INFO
export NCCL_P2P_DISABLE=0
```

## DeepSeek против других

| Функция    | DeepSeek-V3-0324    | Llama 3.1 405B | Mixtral 8x22B       |
| ---------- | ------------------- | -------------- | ------------------- |
| Параметры  | 671B (37B активных) | 405B           | 176B (44B активных) |
| Контекст   | 128K                | 128K           | 64K                 |
| Код        | **Отлично**         | Отлично        | Хорошо              |
| Математика | **Отлично**         | Хорошо         | Хорошо              |
| Мин. VRAM  | 8x80GB              | 8x80GB         | 2x80 ГБ             |
| Лицензия   | MIT                 | Llama 3.1      | Apache 2.0          |

**Используйте DeepSeek-V3 когда:**

* Требуется наилучшее качество рассуждений
* Генерация кода является основной задачей
* Важны задачи по математике/логике
* Доступна конфигурация с несколькими GPU
* Хотите полностью открытые веса (лицензия MIT)

## Дальнейшие шаги

* [vLLM](/guides/guides_v2-ru/yazykovye-modeli/vllm.md) - Сервер для деплоя
* [DeepSeek-R1](/guides/guides_v2-ru/yazykovye-modeli/deepseek-r1.md) - Вариант, специализированный на рассуждениях
* [DeepSeek Coder](/guides/guides_v2-ru/yazykovye-modeli/deepseek-coder.md) - Вариант, ориентированный на код
* [Ollama](/guides/guides_v2-ru/yazykovye-modeli/ollama.md) - Проще в развертывании
* [Донастройка LLM](/guides/guides_v2-ru/obuchenie/finetune-llm.md) - Пользовательская дообучение


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/deepseek-v3.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
