DeepSeek-V3

Запустите DeepSeek-V3 с выдающимися способностями рассуждения на GPU Clore.ai

Запустите DeepSeek-V3, передовую открытую LLM с выдающимися способностями к рассуждению на GPU CLORE.AI.

Все примеры можно запускать на GPU-серверах, арендуемых через CLORE.AI Marketplace.

Обновлено: DeepSeek-V3-0324 (март 2024) — Последняя версия DeepSeek-V3 приносит значительные улучшения в генерации кода, математическом рассуждении и общем решении задач. См. журнал изменений для подробностей.

Почему DeepSeek-V3?

Передовой уровень - Соперничает с GPT-4o и Claude 3.5 Sonnet
671B MoE - 671B параметров всего, 37B активных на токен (эффективный вывод)
Улучшенное рассуждение - DeepSeek-V3-0324 значительно лучше в математике и коде
Эффективно - Архитектура MoE снижает затраты вычислений по сравнению с плотными моделями
Открытый исходный код - Полностью открытые веса под лицензией MIT
Длинный контекст - Контекстное окно 128K токенов

Что нового в DeepSeek-V3-0324

DeepSeek-V3-0324 (ревизия марта 2024) вводит значимые улучшения в ключевых областях:

Генерация кода

+8-12% по HumanEval по сравнению с оригинальным V3
Лучше работает с многофайловыми кодовыми базами и сложными задачами рефакторинга
Улучшенное понимание современных фреймворков (FastAPI, Pydantic v2, LangChain v0.3)
Более надежен при генерации полного, исполняемого кода без пропусков

Математическое рассуждение

+5% по MATH-500 бенчмарку
Лучшее пошаговое построение доказательств
Улучшенная числовая точность для многошаговых задач
Повышенная способность выявлять и исправлять ошибки в середине решения

Общее рассуждение

Сильнее логические выводы и причинно-следственные умозаключения
Лучше в задачах планирования с несколькими шагами
Более последовательная работа на пограничных случаях и в неоднозначных подсказках
Улучшенное следование инструкциям при сложных запросах с множественными ограничениями

Быстрое развертывание на CLORE.AI

Docker-образ:

vllm/vllm-openai:latest

Порты:

22/tcp
8000/http

Команда (требуется несколько GPU):

python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-V3-0324 \
    --host 0.0.0.0 \
    --port 8000 \
    --tensor-parallel-size 8 \
    --trust-remote-code

Доступ к вашему сервису

После развертывания найдите ваш http_pub URL в Моих заказах:

Перейдите на Моих заказах страницу
Нажмите на ваш заказ
Найдите http_pub URL (например, abc123.clorecloud.net)

Используйте https://YOUR_HTTP_PUB_URL вместо localhost в примерах ниже.

Проверьте, что всё работает

# Проверить, готова ли служба
curl https://your-http-pub.clorecloud.net/health

# Показать доступные модели
curl https://your-http-pub.clorecloud.net/v1/models

# Получить версию
curl https://your-http-pub.clorecloud.net/version

Важно: DeepSeek-V3 требует 8x A100 80GB GPU и значительного времени загрузки. HTTP 502 может сохраняться в течение 15–30 минут, пока модель загружается.

Варианты моделей

Модель

Параметры

Активен

Требуемая VRAM

HuggingFace

DeepSeek-V3-0324

671B

37B

8x80GB

deepseek-ai/DeepSeek-V3-0324

DeepSeek-V3

671B

37B

8x80GB

deepseek-ai/DeepSeek-V3

DeepSeek-V3-Base

671B

37B

8x80GB

deepseek-ai/DeepSeek-V3-Base

DeepSeek-V2.5

236B

21B

4x80GB

deepseek-ai/DeepSeek-V2.5

DeepSeek-V2-Lite

16B

2.4B

16GB

deepseek-ai/DeepSeek-V2-Lite

DeepSeek-Coder-V2

236B

21B

4x80GB

deepseek-ai/DeepSeek-Coder-V2-Instruct

Требования к аппаратному обеспечению

Полная точность

Модель

Минимум

Рекомендуется

DeepSeek-V3-0324

8x A100 80GB

8x H100 80GB

DeepSeek-V2.5

4x A100 80GB

4x H100 80GB

DeepSeek-V2-Lite

RTX 4090 24GB

A100 40GB

Квантование (AWQ/GPTQ)

Модель

Квантование

VRAM

DeepSeek-V3-0324

INT4

4x80GB

DeepSeek-V2.5

INT4

2x80 ГБ

DeepSeek-V2-Lite

INT4

8GB

Установка

Использование vLLM (рекомендуется)

pip install vllm==0.7.3

# DeepSeek-V3-0324 (последняя, 8 GPU)
python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-V3-0324 \
    --tensor-parallel-size 8 \
    --trust-remote-code \
    --host 0.0.0.0 \
    --port 8000

# Оригинальный V3 (всё ещё доступен)
python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-V3 \
    --tensor-parallel-size 8 \
    --trust-remote-code \
    --host 0.0.0.0 \
    --port 8000

Использование Transformers

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "deepseek-ai/DeepSeek-V3-0324"

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    trust_remote_code=True
)

messages = [{"role": "user", "content": "Объясните квантовые вычисления простыми словами."}]
inputs = tokenizer.apply_chat_template(messages, return_tensors="pt").to(model.device)

outputs = model.generate(inputs, max_new_tokens=512, temperature=0.7)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Использование Ollama

# Скачивание DeepSeek-V3 (требует значительных ресурсов)
ollama pull deepseek-v3

# Или облегчённый вариант
ollama pull deepseek-coder-v2:16b

# Запустить
ollama run deepseek-v3

Использование API

Совместимый с OpenAI API (vLLM)

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="не_требуется"
)

response = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-V3-0324",
    messages=[
        {"role": "system", "content": "Вы полезный помощник ИИ."},
        {"role": "user", "content": "Напишите функцию на Python для поиска простых чисел."}
    ],
    temperature=0.7,
    max_tokens=1000
)

print(response.choices[0].message.content)

Потоковая передача (Streaming)

stream = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-V3-0324",
    messages=[{"role": "user", "content": "Объясните машинное обучение"}],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

cURL

curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "deepseek-ai/DeepSeek-V3-0324",
        "messages": [
            {"role": "user", "content": "Какова столица Франции?"}
        ],
        "temperature": 0.7
    }'

DeepSeek-V2-Lite (один GPU)

Для пользователей с ограниченным оборудованием:

# Использование vLLM
python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-V2-Lite \
    --trust-remote-code \
    --host 0.0.0.0

# Использование Ollama
ollama run deepseek-coder-v2:16b

# Использование Transformers на одном GPU
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model = AutoModelForCausalLM.from_pretrained(
    "deepseek-ai/DeepSeek-V2-Lite",
    torch_dtype=torch.float16,
    device_map="cuda",
    trust_remote_code=True
)
tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V2-Lite", trust_remote_code=True)

Генерация кода

DeepSeek-V3-0324 — лучший в своём классе для кода:

prompt = """Напишите класс на Python для двоичного дерева поиска с:
- вставкой
- поиском
- удалением
- обходом в порядке возрастания
Включите подсказки типов и докстринги."""

response = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-V3-0324",
    messages=[{"role": "user", "content": prompt}],
    temperature=0.2  # Ниже для кода
)

print(response.choices[0].message.content)

Продвинутые задачи с кодом, где V3-0324 превосходит:

# Многофайловый рефакторинг
prompt = """У меня есть приложение Flask со всем кодом в app.py (500 строк).
Рефакторизуйте его, чтобы использовать шаблон factory приложения с blueprint-ами для:
- auth (вход, регистрация, выход)
- api (REST эндпоинты)
- admin (панель управления)
Покажите полную структуру файлов и все файлы."""

response = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-V3-0324",
    messages=[{"role": "user", "content": prompt}],
    temperature=0.1,
    max_tokens=4000
)

Математика и рассуждение

# Сложная математическая задача
prompt = """Докажите, что для любого целого n >= 1 сумма 1^2 + 2^2 + ... + n^2 = n(n+1)(2n+1)/6.
Используйте математическую индукцию и покажите все шаги ясно."""

response = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-V3-0324",
    messages=[{"role": "user", "content": prompt}],
    temperature=0.1  # Очень низкая для математики
)

print(response.choices[0].message.content)

Конфигурация с несколькими GPU

8x GPU (Полная модель — V3-0324)

python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-V3-0324 \
    --tensor-parallel-size 8 \
    --max-model-len 32768 \
    --gpu-memory-utilization 0.9 \
    --trust-remote-code

4x GPU (V2.5)

python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-V2.5 \
    --tensor-parallel-size 4 \
    --max-model-len 16384 \
    --trust-remote-code

Производительность

Пропускная способность (токенов/сек)

Модель

GPU

Контекст

Токенов/с

DeepSeek-V3-0324

8x H100

32K

~85

DeepSeek-V3-0324

8x A100 80GB

32K

~52

DeepSeek-V3-0324 INT4

4x A100 80GB

16K

~38

DeepSeek-V2.5

4x A100 80GB

16K

~70

DeepSeek-V2.5

2x A100 80GB

~45

DeepSeek-V2-Lite

RTX 4090

~40

DeepSeek-V2-Lite

RTX 3090

~25

Время до первого токена (TTFT)

Модель

Конфигурация

TTFT

DeepSeek-V3-0324

8x H100

~750ms

DeepSeek-V3-0324

8x A100

~1100ms

DeepSeek-V2.5

4x A100

~500ms

DeepSeek-V2-Lite

RTX 4090

~150ms

Использование памяти

Модель

Точность

Требуемая VRAM

DeepSeek-V3-0324

FP16

8x 80GB

DeepSeek-V3-0324

INT4

4x 80GB

DeepSeek-V2.5

FP16

4x 80GB

DeepSeek-V2.5

INT4

2x 80GB

DeepSeek-V2-Lite

FP16

20GB

DeepSeek-V2-Lite

INT4

10GB

Бенчмарки

DeepSeek-V3-0324 против конкурентов

Бенчмарк

V3-0324

V3 (оригинал)

GPT-4o

Claude 3.5 Sonnet

MMLU

88.5%

87.1%

88.7%

88.3%

HumanEval

90.2%

82.6%

90.2%

92.0%

MATH-500

67.1%

61.6%

76.6%

71.1%

GSM8K

92.1%

89.3%

95.8%

96.4%

LiveCodeBench

72.4%

65.9%

71.3%

73.8%

Рейтинг Codeforces

1850

1720

1780

1790

Примечание: улучшение по MATH-500 от V3 → V3-0324 составляет +5.5 процентных пункта.

Docker Compose

version: '3.8'

services:
  deepseek:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - ~/.cache/huggingface:/root/.cache/huggingface
    environment:
      - HUGGING_FACE_HUB_TOKEN=${HF_TOKEN}
    command: >
      --model deepseek-ai/DeepSeek-V2-Lite
      --host 0.0.0.0
      --port 8000
      --trust-remote-code
      --gpu-memory-utilization 0.9
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]

Краткое резюме требований к GPU

Случай использования

Рекомендуемая настройка

Стоимость/час

Полный DeepSeek-V3-0324

8x A100 80GB

~$2.00

DeepSeek-V2.5

4x A100 80GB

~$1.00

Разработка/тестирование

RTX 4090 (V2-Lite)

~$0.10

Продакшн API

8x H100 80GB

~$3.00

Оценка стоимости

Типичные расценки на маркетплейсе CLORE.AI:

Конфигурация GPU

Почасовая ставка

Дневная ставка

RTX 4090 24GB

~$0.10

~$2.30

A100 40GB

~$0.17

~$4.00

A100 80GB

~$0.25

~$6.00

4x A100 80GB

~$1.00

~$24.00

8x A100 80GB

~$2.00

~$48.00

Цены варьируются в зависимости от провайдера. Проверьте CLORE.AI Marketplace для текущих тарифов.

Экономьте деньги:

Используйте Spot рынок для разработки (часто на 30–50% дешевле)
Платите с помощью CLORE токенов
Используйте DeepSeek-V2-Lite для тестирования перед масштабированием

Устранение неполадок

Недостаточно памяти

# Уменьшите длину контекста
--max-model-len 8192

# Или используйте квантизацию
--quantization awq

# Для V2-Lite на GPU с 12GB
--gpu-memory-utilization 0.85
--max-model-len 4096

Медленная загрузка модели

# Предварительная загрузка
huggingface-cli download deepseek-ai/DeepSeek-V3-0324

# Или используйте зеркало
export HF_ENDPOINT=https://hf-mirror.com

Ошибка trust_remote_code

# Всегда включайте этот флаг для моделей DeepSeek
--trust-remote-code

Много-GPU не работает

# Проверьте NCCL
nvidia-smi topo -m

# Установите переменные NCCL
export NCCL_DEBUG=INFO
export NCCL_P2P_DISABLE=0

DeepSeek против других

Функция

DeepSeek-V3-0324

Llama 3.1 405B

Mixtral 8x22B

Параметры

671B (37B активных)

405B

176B (44B активных)

Контекст

128K

64K

Код

Отлично

Отлично

Хорошо

Математика

Отлично

Хорошо

Мин. VRAM

8x80GB

2x80 ГБ

Лицензия

MIT

Llama 3.1

Apache 2.0

Используйте DeepSeek-V3 когда:

Требуется наилучшее качество рассуждений
Генерация кода является основной задачей
Важны задачи по математике/логике
Доступна конфигурация с несколькими GPU
Хотите полностью открытые веса (лицензия MIT)

Дальнейшие шаги

vLLM - Сервер для деплоя
DeepSeek-R1 - Вариант, специализированный на рассуждениях
DeepSeek Coder - Вариант, ориентированный на код
Ollama - Проще в развертывании
Донастройка LLM - Пользовательская дообучение

ПредыдущаяDeepSeek Coder СледующаяDeepSeek-R1 модель рассуждения

Последнее обновление 21 день назад

Это было полезно?

hashtagПочему DeepSeek-V3?

hashtagЧто нового в DeepSeek-V3-0324

hashtagГенерация кода

hashtagМатематическое рассуждение

hashtagОбщее рассуждение

hashtagБыстрое развертывание на CLORE.AI

hashtagДоступ к вашему сервису

hashtagПроверьте, что всё работает

hashtagВарианты моделей

hashtagТребования к аппаратному обеспечению

hashtagПолная точность

hashtagКвантование (AWQ/GPTQ)

hashtagУстановка

hashtagИспользование vLLM (рекомендуется)

hashtagИспользование Transformers

hashtagИспользование Ollama

hashtagИспользование API

hashtagСовместимый с OpenAI API (vLLM)

hashtagПотоковая передача (Streaming)

hashtagcURL

hashtagDeepSeek-V2-Lite (один GPU)

hashtagГенерация кода

hashtagМатематика и рассуждение

hashtagКонфигурация с несколькими GPU

hashtag8x GPU (Полная модель — V3-0324)

hashtag4x GPU (V2.5)

hashtagПроизводительность

hashtagПропускная способность (токенов/сек)

hashtagВремя до первого токена (TTFT)

hashtagИспользование памяти

hashtagБенчмарки

hashtagDeepSeek-V3-0324 против конкурентов

hashtagDocker Compose

hashtagКраткое резюме требований к GPU

hashtagОценка стоимости

hashtagУстранение неполадок

hashtagНедостаточно памяти

hashtagМедленная загрузка модели

hashtagОшибка trust_remote_code

hashtagМного-GPU не работает

hashtagDeepSeek против других

hashtagДальнейшие шаги

Почему DeepSeek-V3?

Что нового в DeepSeek-V3-0324

Генерация кода

Математическое рассуждение

Общее рассуждение

Быстрое развертывание на CLORE.AI

Доступ к вашему сервису

Проверьте, что всё работает

Варианты моделей

Требования к аппаратному обеспечению

Полная точность

Квантование (AWQ/GPTQ)

Установка

Использование vLLM (рекомендуется)

Использование Transformers

Использование Ollama

Использование API

Совместимый с OpenAI API (vLLM)

Потоковая передача (Streaming)

cURL

DeepSeek-V2-Lite (один GPU)

Генерация кода

Математика и рассуждение

Конфигурация с несколькими GPU

8x GPU (Полная модель — V3-0324)

4x GPU (V2.5)

Производительность

Пропускная способность (токенов/сек)

Время до первого токена (TTFT)

Использование памяти

Бенчмарки

DeepSeek-V3-0324 против конкурентов

Docker Compose

Краткое резюме требований к GPU

Оценка стоимости

Устранение неполадок

Недостаточно памяти

Медленная загрузка модели

Ошибка trust_remote_code

Много-GPU не работает

DeepSeek против других

Дальнейшие шаги