> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/nvidia-nemotron-3-super.md).

# NVIDIA Nemotron 3 Super (120B MoE)

> **Nemotron 3 Super** — это открытая 120B-суммарная / 12B-активная модель NVIDIA класса Mixture-of-Experts Hybrid Mamba-Transformer, выпущенная 11 марта 2026 года. Специально разработана для сложных **агентных ИИ-систем** — автономного кодинга, триажа кибербезопасности и длительных многошаговых исследований. Обеспечивает **пропускную способность в 5× выше** по сравнению с плотными моделями сопоставимого качества.

## Зачем запускать Nemotron 3 Super на Clore.ai?

Архитектура MoE у Nemotron 3 Super означает, что на каждом прямом проходе активны только 12B параметров — так вы получаете рассуждения на передовом уровне при вычислительных затратах модели среднего размера. На Clore.ai вы можете арендовать одну RTX 5090 (32 ГБ) или пару RTX 4090 и запускать её с полной квантизацией INT4/FP4 на производительных скоростях.

**Ключевые числа:**

* **120B параметров всего**, 12B активных (Latent MoE)
* **Гибридная Mamba-Transformer** архитектура (первая в линейке Nemotron с MTP Layers)
* **контекстное окно на 1M токенов**
* Предобучена в **NVFP4** — нативная квантизация NVIDIA FP4
* **пропускная способность 5×** по сравнению с сопоставимыми плотными моделями
* Лицензия NVIDIA Nemotron Open Model — открытые веса с коммерческим использованием

## Требования к оборудованию

| Конфигурация   | VRAM              | Стоимость на Clore.ai | Примечания                    |
| -------------- | ----------------- | --------------------- | ----------------------------- |
| FP4 (нативный) | 1× RTX 5090 32 ГБ | \~$3.50–5/ч           | Самый быстрый; нативный NVFP4 |
| INT4           | 2× RTX 4090 24 ГБ | \~$4–6/ч              | Сильный вариант               |
| INT4           | 1× A100 80 ГБ     | \~$20/ч               | Полный INT4, один GPU         |
| INT8           | 4× RTX 4090       | \~$8–12/ч             | Почти полное качество         |
| BF16 полный    | 4× H100 80GB      | \~$24–40/ч            | Обучение / полная точность    |

> **Лучшее соотношение цены и качества на Clore.ai:** 2× RTX 5090 (доступны от \~$7/ч) для инференса в полной точности BF16.

## Быстрый старт: vLLM + Nemotron 3 Super

```bash
# Скачайте Docker-образ vLLM (поддержка NVFP4 требует vLLM >= 0.7.3)
docker run --gpus all --rm -it \
  -p 8000:8000 \
  -v /root/.cache:/root/.cache \
  vllm/vllm-openai:v0.7.3 \
  --model nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16 \
  --quantization fp4 \
  --max-model-len 32768 \
  --tensor-parallel-size 1 \
  --gpu-memory-utilization 0.92
```

Для нескольких GPU (2× RTX 4090 в INT4):

```bash
docker run --gpus all --rm -it \
  -p 8000:8000 \
  -v /root/.cache:/root/.cache \
  vllm/vllm-openai:v0.7.3 \
  --model nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16 \
  --quantization awq_marlin \
  --max-model-len 65536 \
  --tensor-parallel-size 2 \
  --gpu-memory-utilization 0.90
```

## SGLang (альтернатива — более быстрый сервисинг MoE)

Для производительной MoE-пропускной способности RadixAttention в SGLang даёт в 2–5× лучшую пропускную способность по сравнению с vLLM на MoE-моделях:

```bash
docker run --gpus all --rm -it \
  -p 30000:30000 \
  -v /root/.cache:/root/.cache \
  lmsysorg/sglang:latest \
  python -m sglang.launch_server \
    --model nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16 \
    --tp 2 \
    --quantization fp8 \
    --context-length 131072 \
    --port 30000
```

## Развёртывание на Clore.ai: пошагово

### 1. Арендуйте GPU

Перейдите на [clore.ai/marketplace](https://clore.ai/marketplace):

* Фильтр: **RTX 5090** или **RTX 4090 × 2+**
* Сортировать по цене (spot-заказы на 20–40% дешевле)
* Минимум: 32 ГБ VRAM всего (FP4); 48 ГБ для INT8; 80 ГБ для BF16

### 2. Запустите контейнер

В панели управления Clore.ai выберите **Custom Docker** и введите:

```
Образ: vllm/vllm-openai:v0.7.3
Порты: 8000
Команда: --model nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16 --quantization fp4 --max-model-len 32768
```

Или используйте однострочный запуск по SSH:

```bash
ssh root@<clore-server-ip> "docker run --gpus all -d \
  -p 8000:8000 \
  -v /root/.cache:/root/.cache \
  --name nemotron3 \
  vllm/vllm-openai:v0.7.3 \
  --model nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16 \
  --quantization fp4 \
  --max-model-len 32768 && echo 'Started'"
```

### 3. Проверьте API

```bash
curl http://<server-ip>:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16",
    "messages": [
      {"role": "system", "content": "Вы — полезный ассистент."},
      {"role": "user", "content": "Напишите функцию на Python для скрейпинга issues GitHub и их категоризации по уровню критичности."}
    ],
    "max_tokens": 2048,
    "temperature": 0.1
  }'
```

## Агентный сценарий: многoагентный пайплайн разработки

Nemotron 3 Super специально создан для многoагентных рабочих процессов. Вот минимальный пример с API, совместимым с OpenAI:

```python
from openai import OpenAI

client = OpenAI(
    base_url="http://<server-ip>:8000/v1",
    api_key="none"
)

def planning_agent(task: str) -> str:
    """Высокоуровневое декомпозирование задачи."""
    response = client.chat.completions.create(
        model="nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16",
        messages=[
            {"role": "system", "content": "Вы — старший технический руководитель. Разбивайте сложные задачи на конкретные подзадачи с критериями приёмки."},
            {"role": "user", "content": f"Декомпозируйте эту задачу: {task}"}
        ],
        max_tokens=1024,
        temperature=0.0
    )
    return response.choices[0].message.content

def coding_agent(subtask: str) -> str:
    """Реализация кода."""
    response = client.chat.completions.create(
        model="nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16",
        messages=[
            {"role": "system", "content": "Вы — экспертный Python-инженер. Пишите production-качественный код с тестами."},
            {"role": "user", "content": subtask}
        ],
        max_tokens=2048,
        temperature=0.1
    )
    return response.choices[0].message.content

# Пример: автономная реализация функции
plan = planning_agent("Постройте REST API для аутентификации пользователей с JWT")
print("Plan:", plan)
code = coding_agent(f"Реализуйте шаг 1 из этого плана: {plan}")
print("Code:", code)
```

## Бенчмарки (март 2026)

| Бенчмарк                       | Nemotron 3 Super | DeepSeek V3 | Llama 4 Maverick |
| ------------------------------ | ---------------- | ----------- | ---------------- |
| HumanEval                      | 92.1%            | 90.8%       | 88.4%            |
| MATH-500                       | 89.3%            | 90.2%       | 84.7%            |
| SWE-bench Verified             | 65.2%            | 61.4%       | 55.8%            |
| MMLU                           | 88.7%            | 87.2%       | 86.1%            |
| Пропускная способность (ток/с) | 1,840            | 410         | 890              |

*Пропускная способность измерена на 2× H100 80 ГБ с квантизацией INT4.*

## Мониторинг и советы для продакшена

```bash
# Следите за памятью и загрузкой GPU
watch -n2 nvidia-smi

# Проверьте статистику пропускной способности vLLM
curl http://localhost:8000/metrics 2>/dev/null | grep vllm

# Логи Docker (в реальном времени)
docker logs -f nemotron3

# Если OOM: уменьшите max_model_len или увеличьте tensor-parallel-size
```

**Рекомендуемые настройки для продакшена на Clore.ai:**

* `--max-model-len 32768` для большинства рабочих нагрузок (экономит VRAM, покрывает 95% запросов)
* `--gpu-memory-utilization 0.90` (оставьте 10% запас на накладные расходы маршрутизации MoE)
* `--enable-chunked-prefill` для лучшей задержки на длинных входах
* Включите spot-заказы для экономии 30–40% на пакетных нагрузках

## Сравнение стоимости

| Провайдер                 | Конфигурация    | $/ч      |
| ------------------------- | --------------- | -------- |
| **Clore.ai** (spot)       | 2× RTX 5090     | \~$5.60  |
| **Clore.ai** (по запросу) | 2× RTX 5090     | \~$7.00  |
| Azure AI                  | Размещённый API | \~$15–20 |
| NVIDIA API                | Размещённый API | \~$12–18 |

*Самостоятельный хостинг на Clore.ai в 2–3 раза дешевле, чем управляемый API, для постоянных нагрузок.*

## Связанные руководства

* [Обслуживание vLLM](/guides/guides_v2-ru/yazykovye-modeli/vllm.md) — производительный сервер LLM с API, совместимым с OpenAI
* [SGLang](/guides/guides_v2-ru/yazykovye-modeli/sglang.md) — более высокая пропускная способность MoE с RadixAttention
* [DeepSeek V4](/guides/guides_v2-ru/yazykovye-modeli/deepseek-v4.md) — предстоящая открытая модель на 1T параметров
* [CrewAI](/guides/guides_v2-ru/ai-platformy-i-agenty/crewai.md) — создавайте многoагентные пайплайны с агентами на основе ролей
* [OpenHands](/guides/guides_v2-ru/ai-platformy-i-agenty/openhands.md) — автономные агенты для разработки ПО
* [Сравнение GPU](/guides/guides_v2-ru/nachalo-raboty/gpu-comparison.md) — выберите подходящий GPU для вашей нагрузки

***

*Последнее обновление: 16 марта 2026 | Модель выпущена: 11 марта 2026 | Лицензия: NVIDIA Nemotron Open Model License*


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/nvidia-nemotron-3-super.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.