# DeepSeek-V3

Запустите DeepSeek-V3, передовую открытую LLM с выдающимися способностями к рассуждению на GPU CLORE.AI.

{% hint style="success" %}
Все примеры можно запускать на GPU-серверах, арендуемых через [CLORE.AI Marketplace](https://clore.ai/marketplace).
{% endhint %}

{% hint style="info" %}
**Обновлено: DeepSeek-V3-0324 (март 2024)** — Последняя версия DeepSeek-V3 приносит значительные улучшения в генерации кода, математическом рассуждении и общем решении задач. См. [журнал изменений](#whats-new-in-deepseek-v3-0324) для подробностей.
{% endhint %}

## Почему DeepSeek-V3?

* **Передовой уровень** - Соперничает с GPT-4o и Claude 3.5 Sonnet
* **671B MoE** - 671B параметров всего, 37B активных на токен (эффективный вывод)
* **Улучшенное рассуждение** - DeepSeek-V3-0324 значительно лучше в математике и коде
* **Эффективно** - Архитектура MoE снижает затраты вычислений по сравнению с плотными моделями
* **Открытый исходный код** - Полностью открытые веса под лицензией MIT
* **Длинный контекст** - Контекстное окно 128K токенов

## Что нового в DeepSeek-V3-0324

DeepSeek-V3-0324 (ревизия марта 2024) вводит значимые улучшения в ключевых областях:

### Генерация кода

* **+8-12% по HumanEval** по сравнению с оригинальным V3
* Лучше работает с многофайловыми кодовыми базами и сложными задачами рефакторинга
* Улучшенное понимание современных фреймворков (FastAPI, Pydantic v2, LangChain v0.3)
* Более надежен при генерации полного, исполняемого кода без пропусков

### Математическое рассуждение

* **+5% по MATH-500** бенчмарку
* Лучшее пошаговое построение доказательств
* Улучшенная числовая точность для многошаговых задач
* Повышенная способность выявлять и исправлять ошибки в середине решения

### Общее рассуждение

* Сильнее логические выводы и причинно-следственные умозаключения
* Лучше в задачах планирования с несколькими шагами
* Более последовательная работа на пограничных случаях и в неоднозначных подсказках
* Улучшенное следование инструкциям при сложных запросах с множественными ограничениями

## Быстрое развертывание на CLORE.AI

**Docker-образ:**

```
vllm/vllm-openai:latest
```

**Порты:**

```
22/tcp
8000/http
```

**Команда (требуется несколько GPU):**

```bash
python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-V3-0324 \
    --host 0.0.0.0 \
    --port 8000 \
    --tensor-parallel-size 8 \
    --trust-remote-code
```

## Доступ к вашему сервису

После развертывания найдите ваш `http_pub` URL в **Моих заказах**:

1. Перейдите на **Моих заказах** страницу
2. Нажмите на ваш заказ
3. Найдите `http_pub` URL (например, `abc123.clorecloud.net`)

Используйте `https://YOUR_HTTP_PUB_URL` вместо `localhost` в примерах ниже.

### Проверьте, что всё работает

```bash
# Проверить, готова ли служба
curl https://your-http-pub.clorecloud.net/health

# Показать доступные модели
curl https://your-http-pub.clorecloud.net/v1/models

# Получить версию
curl https://your-http-pub.clorecloud.net/version
```

{% hint style="warning" %}
**Важно:** DeepSeek-V3 требует **8x A100 80GB** GPU и значительного времени загрузки. HTTP 502 может сохраняться в течение 15–30 минут, пока модель загружается.
{% endhint %}

## Варианты моделей

| Модель            | Параметры | Активен | Требуемая VRAM | HuggingFace                                                                                             |
| ----------------- | --------- | ------- | -------------- | ------------------------------------------------------------------------------------------------------- |
| DeepSeek-V3-0324  | 671B      | 37B     | 8x80GB         | [deepseek-ai/DeepSeek-V3-0324](https://huggingface.co/deepseek-ai/DeepSeek-V3-0324)                     |
| DeepSeek-V3       | 671B      | 37B     | 8x80GB         | [deepseek-ai/DeepSeek-V3](https://huggingface.co/deepseek-ai/DeepSeek-V3)                               |
| DeepSeek-V3-Base  | 671B      | 37B     | 8x80GB         | [deepseek-ai/DeepSeek-V3-Base](https://huggingface.co/deepseek-ai/DeepSeek-V3-Base)                     |
| DeepSeek-V2.5     | 236B      | 21B     | 4x80GB         | [deepseek-ai/DeepSeek-V2.5](https://huggingface.co/deepseek-ai/DeepSeek-V2.5)                           |
| DeepSeek-V2-Lite  | 16B       | 2.4B    | 16GB           | [deepseek-ai/DeepSeek-V2-Lite](https://huggingface.co/deepseek-ai/DeepSeek-V2-Lite)                     |
| DeepSeek-Coder-V2 | 236B      | 21B     | 4x80GB         | [deepseek-ai/DeepSeek-Coder-V2-Instruct](https://huggingface.co/deepseek-ai/DeepSeek-Coder-V2-Instruct) |

## Требования к аппаратному обеспечению

### Полная точность

| Модель           | Минимум       | Рекомендуется |
| ---------------- | ------------- | ------------- |
| DeepSeek-V3-0324 | 8x A100 80GB  | 8x H100 80GB  |
| DeepSeek-V2.5    | 4x A100 80GB  | 4x H100 80GB  |
| DeepSeek-V2-Lite | RTX 4090 24GB | A100 40GB     |

### Квантование (AWQ/GPTQ)

| Модель           | Квантование | VRAM    |
| ---------------- | ----------- | ------- |
| DeepSeek-V3-0324 | INT4        | 4x80GB  |
| DeepSeek-V2.5    | INT4        | 2x80 ГБ |
| DeepSeek-V2-Lite | INT4        | 8GB     |

## Установка

### Использование vLLM (рекомендуется)

```bash
pip install vllm==0.7.3

# DeepSeek-V3-0324 (последняя, 8 GPU)
python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-V3-0324 \
    --tensor-parallel-size 8 \
    --trust-remote-code \
    --host 0.0.0.0 \
    --port 8000

# Оригинальный V3 (всё ещё доступен)
python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-V3 \
    --tensor-parallel-size 8 \
    --trust-remote-code \
    --host 0.0.0.0 \
    --port 8000
```

### Использование Transformers

```python
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "deepseek-ai/DeepSeek-V3-0324"

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    trust_remote_code=True
)

messages = [{"role": "user", "content": "Объясните квантовые вычисления простыми словами."}]
inputs = tokenizer.apply_chat_template(messages, return_tensors="pt").to(model.device)

outputs = model.generate(inputs, max_new_tokens=512, temperature=0.7)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
```

### Использование Ollama

```bash
# Скачивание DeepSeek-V3 (требует значительных ресурсов)
ollama pull deepseek-v3

# Или облегчённый вариант
ollama pull deepseek-coder-v2:16b

# Запустить
ollama run deepseek-v3
```

## Использование API

### Совместимый с OpenAI API (vLLM)

```python
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="не_требуется"
)

response = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-V3-0324",
    messages=[
        {"role": "system", "content": "Вы полезный помощник ИИ."},
        {"role": "user", "content": "Напишите функцию на Python для поиска простых чисел."}
    ],
    temperature=0.7,
    max_tokens=1000
)

print(response.choices[0].message.content)
```

### Потоковая передача (Streaming)

```python
stream = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-V3-0324",
    messages=[{"role": "user", "content": "Объясните машинное обучение"}],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)
```

### cURL

```bash
curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "deepseek-ai/DeepSeek-V3-0324",
        "messages": [
            {"role": "user", "content": "Какова столица Франции?"}
        ],
        "temperature": 0.7
    }'
```

## DeepSeek-V2-Lite (один GPU)

Для пользователей с ограниченным оборудованием:

```bash
# Использование vLLM
python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-V2-Lite \
    --trust-remote-code \
    --host 0.0.0.0

# Использование Ollama
ollama run deepseek-coder-v2:16b
```

```python
# Использование Transformers на одном GPU
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model = AutoModelForCausalLM.from_pretrained(
    "deepseek-ai/DeepSeek-V2-Lite",
    torch_dtype=torch.float16,
    device_map="cuda",
    trust_remote_code=True
)
tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V2-Lite", trust_remote_code=True)
```

## Генерация кода

DeepSeek-V3-0324 — лучший в своём классе для кода:

```python
prompt = """Напишите класс на Python для двоичного дерева поиска с:
- вставкой
- поиском
- удалением
- обходом в порядке возрастания
Включите подсказки типов и докстринги."""

response = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-V3-0324",
    messages=[{"role": "user", "content": prompt}],
    temperature=0.2  # Ниже для кода
)

print(response.choices[0].message.content)
```

Продвинутые задачи с кодом, где V3-0324 превосходит:

```python
# Многофайловый рефакторинг
prompt = """У меня есть приложение Flask со всем кодом в app.py (500 строк).
Рефакторизуйте его, чтобы использовать шаблон factory приложения с blueprint-ами для:
- auth (вход, регистрация, выход)
- api (REST эндпоинты)
- admin (панель управления)
Покажите полную структуру файлов и все файлы."""

response = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-V3-0324",
    messages=[{"role": "user", "content": prompt}],
    temperature=0.1,
    max_tokens=4000
)
```

## Математика и рассуждение

```python
# Сложная математическая задача
prompt = """Докажите, что для любого целого n >= 1 сумма 1^2 + 2^2 + ... + n^2 = n(n+1)(2n+1)/6.
Используйте математическую индукцию и покажите все шаги ясно."""

response = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-V3-0324",
    messages=[{"role": "user", "content": prompt}],
    temperature=0.1  # Очень низкая для математики
)

print(response.choices[0].message.content)
```

## Конфигурация с несколькими GPU

### 8x GPU (Полная модель — V3-0324)

```bash
python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-V3-0324 \
    --tensor-parallel-size 8 \
    --max-model-len 32768 \
    --gpu-memory-utilization 0.9 \
    --trust-remote-code
```

### 4x GPU (V2.5)

```bash
python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-V2.5 \
    --tensor-parallel-size 4 \
    --max-model-len 16384 \
    --trust-remote-code
```

## Производительность

### Пропускная способность (токенов/сек)

| Модель                | GPU          | Контекст | Токенов/с |
| --------------------- | ------------ | -------- | --------- |
| DeepSeek-V3-0324      | 8x H100      | 32K      | \~85      |
| DeepSeek-V3-0324      | 8x A100 80GB | 32K      | \~52      |
| DeepSeek-V3-0324 INT4 | 4x A100 80GB | 16K      | \~38      |
| DeepSeek-V2.5         | 4x A100 80GB | 16K      | \~70      |
| DeepSeek-V2.5         | 2x A100 80GB | 8K       | \~45      |
| DeepSeek-V2-Lite      | RTX 4090     | 8K       | \~40      |
| DeepSeek-V2-Lite      | RTX 3090     | 4K       | \~25      |

### Время до первого токена (TTFT)

| Модель           | Конфигурация | TTFT     |
| ---------------- | ------------ | -------- |
| DeepSeek-V3-0324 | 8x H100      | \~750ms  |
| DeepSeek-V3-0324 | 8x A100      | \~1100ms |
| DeepSeek-V2.5    | 4x A100      | \~500ms  |
| DeepSeek-V2-Lite | RTX 4090     | \~150ms  |

### Использование памяти

| Модель           | Точность | Требуемая VRAM |
| ---------------- | -------- | -------------- |
| DeepSeek-V3-0324 | FP16     | 8x 80GB        |
| DeepSeek-V3-0324 | INT4     | 4x 80GB        |
| DeepSeek-V2.5    | FP16     | 4x 80GB        |
| DeepSeek-V2.5    | INT4     | 2x 80GB        |
| DeepSeek-V2-Lite | FP16     | 20GB           |
| DeepSeek-V2-Lite | INT4     | 10GB           |

## Бенчмарки

### DeepSeek-V3-0324 против конкурентов

| Бенчмарк           | V3-0324 | V3 (оригинал) | GPT-4o | Claude 3.5 Sonnet |
| ------------------ | ------- | ------------- | ------ | ----------------- |
| MMLU               | 88.5%   | 87.1%         | 88.7%  | 88.3%             |
| HumanEval          | 90.2%   | 82.6%         | 90.2%  | 92.0%             |
| MATH-500           | 67.1%   | 61.6%         | 76.6%  | 71.1%             |
| GSM8K              | 92.1%   | 89.3%         | 95.8%  | 96.4%             |
| LiveCodeBench      | 72.4%   | 65.9%         | 71.3%  | 73.8%             |
| Рейтинг Codeforces | 1850    | 1720          | 1780   | 1790              |

*Примечание: улучшение по MATH-500 от V3 → V3-0324 составляет +5.5 процентных пункта.*

## Docker Compose

```yaml
version: '3.8'

services:
  deepseek:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - ~/.cache/huggingface:/root/.cache/huggingface
    environment:
      - HUGGING_FACE_HUB_TOKEN=${HF_TOKEN}
    command: >
      --model deepseek-ai/DeepSeek-V2-Lite
      --host 0.0.0.0
      --port 8000
      --trust-remote-code
      --gpu-memory-utilization 0.9
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
```

## Краткое резюме требований к GPU

| Случай использования    | Рекомендуемая настройка | Стоимость/час |
| ----------------------- | ----------------------- | ------------- |
| Полный DeepSeek-V3-0324 | 8x A100 80GB            | \~$2.00       |
| DeepSeek-V2.5           | 4x A100 80GB            | \~$1.00       |
| Разработка/тестирование | RTX 4090 (V2-Lite)      | \~$0.10       |
| Продакшн API            | 8x H100 80GB            | \~$3.00       |

## Оценка стоимости

Типичные расценки на маркетплейсе CLORE.AI:

| Конфигурация GPU | Почасовая ставка | Дневная ставка |
| ---------------- | ---------------- | -------------- |
| RTX 4090 24GB    | \~$0.10          | \~$2.30        |
| A100 40GB        | \~$0.17          | \~$4.00        |
| A100 80GB        | \~$0.25          | \~$6.00        |
| 4x A100 80GB     | \~$1.00          | \~$24.00       |
| 8x A100 80GB     | \~$2.00          | \~$48.00       |

*Цены варьируются в зависимости от провайдера. Проверьте* [*CLORE.AI Marketplace*](https://clore.ai/marketplace) *для текущих тарифов.*

**Экономьте деньги:**

* Используйте **Spot** рынок для разработки (часто на 30–50% дешевле)
* Платите с помощью **CLORE** токенов
* Используйте DeepSeek-V2-Lite для тестирования перед масштабированием

## Устранение неполадок

### Недостаточно памяти

```bash
# Уменьшите длину контекста
--max-model-len 8192

# Или используйте квантизацию
--quantization awq

# Для V2-Lite на GPU с 12GB
--gpu-memory-utilization 0.85
--max-model-len 4096
```

### Медленная загрузка модели

```bash
# Предварительная загрузка
huggingface-cli download deepseek-ai/DeepSeek-V3-0324

# Или используйте зеркало
export HF_ENDPOINT=https://hf-mirror.com
```

### Ошибка trust\_remote\_code

```bash
# Всегда включайте этот флаг для моделей DeepSeek
--trust-remote-code
```

### Много-GPU не работает

```bash
# Проверьте NCCL
nvidia-smi topo -m

# Установите переменные NCCL
export NCCL_DEBUG=INFO
export NCCL_P2P_DISABLE=0
```

## DeepSeek против других

| Функция    | DeepSeek-V3-0324    | Llama 3.1 405B | Mixtral 8x22B       |
| ---------- | ------------------- | -------------- | ------------------- |
| Параметры  | 671B (37B активных) | 405B           | 176B (44B активных) |
| Контекст   | 128K                | 128K           | 64K                 |
| Код        | **Отлично**         | Отлично        | Хорошо              |
| Математика | **Отлично**         | Хорошо         | Хорошо              |
| Мин. VRAM  | 8x80GB              | 8x80GB         | 2x80 ГБ             |
| Лицензия   | MIT                 | Llama 3.1      | Apache 2.0          |

**Используйте DeepSeek-V3 когда:**

* Требуется наилучшее качество рассуждений
* Генерация кода является основной задачей
* Важны задачи по математике/логике
* Доступна конфигурация с несколькими GPU
* Хотите полностью открытые веса (лицензия MIT)

## Дальнейшие шаги

* [vLLM](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/vllm) - Сервер для деплоя
* [DeepSeek-R1](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/deepseek-r1) - Вариант, специализированный на рассуждениях
* [DeepSeek Coder](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/deepseek-coder) - Вариант, ориентированный на код
* [Ollama](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/ollama) - Проще в развертывании
* [Донастройка LLM](https://docs.clore.ai/guides/guides_v2-ru/obuchenie/finetune-llm) - Пользовательская дообучение
