> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-hi/language-models/nvidia-nemotron-3-super.md).

# NVIDIA Nemotron 3 Super (120B MoE)

> **Nemotron 3 Super** NVIDIA का ओपन-सोर्स 120B-टोटल / 12B-एक्टिव Mixture-of-Experts Hybrid Mamba-Transformer मॉडल है, जिसे 11 मार्च, 2026 को जारी किया गया था। विशेष रूप से जटिल **एजेंटिक AI प्रणालियों** के लिए डिज़ाइन किया गया — स्वायत्त कोडिंग, साइबरसुरक्षा ट्रायेजिंग, और लंबे-रूप बहु-चरणीय शोध। प्रदान करता है **5× अधिक throughput** समकक्ष गुणवत्ता वाले dense मॉडलों की तुलना में।

## Clore.ai पर Nemotron 3 Super क्यों चलाएँ?

Nemotron 3 Super की MoE आर्किटेक्चर का मतलब है कि प्रत्येक forward pass में केवल 12B पैरामीटर सक्रिय होते हैं — इसलिए आपको एक mid-sized मॉडल की compute लागत पर frontier-स्तरीय reasoning मिलती है। Clore.ai पर आप एक single RTX 5090 (32GB) या RTX 4090s की एक जोड़ी किराए पर लेकर इसे production गति पर full INT4/FP4 quantization के साथ चला सकते हैं।

**मुख्य संख्याएँ:**

* **120B कुल पैरामीटर**, 12B सक्रिय (Latent MoE)
* **Hybrid Mamba-Transformer** आर्किटेक्चर (MTP Layers के साथ Nemotron लाइन में पहली)
* **1M टोकन context window**
* में pre-trained **NVFP4** — native NVIDIA FP4 quantization
* **5× throughput** समकक्ष dense मॉडलों की तुलना में
* NVIDIA Nemotron Open Model License — व्यावसायिक उपयोग के साथ open weights

## हार्डवेयर आवश्यकताएँ

| कॉन्फ़िग     | VRAM             | Clore.ai लागत  | नोट्स                    |
| ------------ | ---------------- | -------------- | ------------------------ |
| FP4 (native) | 1× RTX 5090 32GB | \~$3.50–5/घंटा | सबसे तेज़; native NVFP4  |
| INT4         | 2× RTX 4090 24GB | \~$4–6/घंटा    | मज़बूत विकल्प            |
| INT4         | 1× A100 80GB     | \~$20/घंटा     | पूर्ण INT4, single GPU   |
| INT8         | 4× RTX 4090      | \~$8–12/घंटा   | लगभग पूर्ण गुणवत्ता      |
| BF16 पूर्ण   | 4× H100 80GB     | \~$24–40/घंटा  | प्रशिक्षण / पूर्ण निष्ठा |

> **Clore.ai पर सबसे अच्छा मूल्य:** BF16 full-precision inference के लिए 2× RTX 5090 (लगभग \~$7/घंटा से उपलब्ध)।

## क्विक स्टार्ट: vLLM + Nemotron 3 Super

```bash
# vLLM Docker image pull करें (NVFP4 support के लिए vLLM >= 0.7.3 आवश्यक है)
docker run --gpus all --rm -it \
  -p 8000:8000 \
  -v /root/.cache:/root/.cache \
  vllm/vllm-openai:v0.7.3 \
  --model nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16 \
  --quantization fp4 \
  --max-model-len 32768 \
  --tensor-parallel-size 1 \
  --gpu-memory-utilization 0.92
```

मल्टी-GPU के लिए (INT4 में 2× RTX 4090):

```bash
docker run --gpus all --rm -it \
  -p 8000:8000 \
  -v /root/.cache:/root/.cache \
  vllm/vllm-openai:v0.7.3 \
  --model nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16 \
  --quantization awq_marlin \
  --max-model-len 65536 \
  --tensor-parallel-size 2 \
  --gpu-memory-utilization 0.90
```

## SGLang (विकल्प — तेज़ MoE सर्विंग)

प्रोडक्शन-ग्रेड MoE throughput के लिए, SGLang का RadixAttention MoE मॉडलों पर vLLM की तुलना में 2–5× बेहतर throughput देता है:

```bash
docker run --gpus all --rm -it \
  -p 30000:30000 \
  -v /root/.cache:/root/.cache \
  lmsysorg/sglang:latest \
  python -m sglang.launch_server \
    --model nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16 \
    --tp 2 \
    --quantization fp8 \
    --context-length 131072 \
    --port 30000
```

## Clore.ai पर डिप्लॉय करें: चरण-दर-चरण

### 1. GPU किराए पर लें

पर जाएँ [clore.ai/marketplace](https://clore.ai/marketplace):

* फ़िल्टर: **RTX 5090** या **RTX 4090 × 2+**
* कीमत के अनुसार क्रमबद्ध करें (spot orders 20–40% सस्ते होते हैं)
* न्यूनतम: कुल 32GB VRAM (FP4); INT8 के लिए 48GB; BF16 के लिए 80GB

### 2. कंटेनर लॉन्च करें

Clore.ai डैशबोर्ड में, चुनें **Custom Docker** और दर्ज करें:

```
इमेज: vllm/vllm-openai:v0.7.3
पोर्ट: 8000
कमांड: --model nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16 --quantization fp4 --max-model-len 32768
```

या one-liner SSH launch का उपयोग करें:

```bash
ssh root@<clore-server-ip> "docker run --gpus all -d \
  -p 8000:8000 \
  -v /root/.cache:/root/.cache \
  --name nemotron3 \
  vllm/vllm-openai:v0.7.3 \
  --model nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16 \
  --quantization fp4 \
  --max-model-len 32768 && echo 'शुरू किया गया'"
```

### 3. API का परीक्षण करें

```bash
curl http://<server-ip>:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16",
    "messages": [
      {"role": "system", "content": "आप एक सहायक सहायक हैं।"},
      {"role": "user", "content": "GitHub issues को scrape करने और उन्हें severity के आधार पर वर्गीकृत करने के लिए एक Python function लिखें।"}
    ],
    "max_tokens": 2048,
    "temperature": 0.1
  }'
```

## एजेंटिक उपयोग केस: मल्टी-एजेंट कोडिंग पाइपलाइन

Nemotron 3 Super विशेष रूप से multi-agent workflows के लिए बनाया गया है। यहाँ OpenAI-compatible API का उपयोग करते हुए एक न्यूनतम उदाहरण है:

```python
from openai import OpenAI

client = OpenAI(
    base_url="http://<server-ip>:8000/v1",
    api_key="none"
)

def planning_agent(task: str) -> str:
    """उच्च-स्तरीय कार्य विभाजन।"""
    response = client.chat.completions.create(
        model="nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16",
        messages=[
            {"role": "system", "content": "आप एक वरिष्ठ इंजीनियरिंग लीड हैं। जटिल कार्यों को स्वीकृति मानदंडों के साथ ठोस उप-कार्य में विभाजित करें."},
            {"role": "user", "content": f"इस कार्य को विभाजित करें: {task}"}
        ],
        max_tokens=1024,
        temperature=0.0
    )
    return response.choices[0].message.content

def coding_agent(subtask: str) -> str:
    """कोड कार्यान्वयन।"""
    response = client.chat.completions.create(
        model="nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16",
        messages=[
            {"role": "system", "content": "आप एक विशेषज्ञ Python इंजीनियर हैं। परीक्षणों के साथ production-quality code लिखें."},
            {"role": "user", "content": subtask}
        ],
        max_tokens=2048,
        temperature=0.1
    )
    return response.choices[0].message.content

# उदाहरण: स्वायत्त फीचर कार्यान्वयन
plan = planning_agent("JWT के साथ user authentication के लिए एक REST API बनाएं")
print("योजना:", plan)
code = coding_agent(f"इस योजना से चरण 1 लागू करें: {plan}")
print("कोड:", code)
```

## बेंचमार्क (मार्च 2026)

| बेंचमार्क          | Nemotron 3 Super | DeepSeek V3 | Llama 4 Maverick |
| ------------------ | ---------------- | ----------- | ---------------- |
| HumanEval          | 92.1%            | 90.8%       | 88.4%            |
| MATH-500           | 89.3%            | 90.2%       | 84.7%            |
| SWE-bench Verified | 65.2%            | 61.4%       | 55.8%            |
| MMLU               | 88.7%            | 87.2%       | 86.1%            |
| Throughput (tok/s) | 1,840            | 410         | 890              |

*Throughput को 2× H100 80GB पर INT4 quantization के साथ मापा गया।*

## मॉनिटरिंग और प्रोडक्शन टिप्स

```bash
# GPU memory और utilization देखें
watch -n2 nvidia-smi

# vLLM throughput आँकड़े जाँचें
curl http://localhost:8000/metrics 2>/dev/null | grep vllm

# Docker logs (live)
docker logs -f nemotron3

# यदि OOM हो: max_model_len कम करें या tensor-parallel-size बढ़ाएँ
```

**Clore.ai पर production के लिए अनुशंसित सेटिंग्स:**

* `--max-model-len 32768` अधिकांश workloads के लिए (VRAM बचाता है, 95% अनुरोधों को कवर करता है)
* `--gpu-memory-utilization 0.90` (MoE routing overhead के लिए 10% buffer छोड़ें)
* `--enable-chunked-prefill` लंबे inputs पर बेहतर latency के लिए
* batch workloads पर 30–40% लागत बचत के लिए spot orders सक्षम करें

## लागत तुलना

| प्रदाता                  | कॉन्फ़िग    | $/घंटा   |
| ------------------------ | ----------- | -------- |
| **Clore.ai** (spot)      | 2× RTX 5090 | \~$5.60  |
| **Clore.ai** (on-demand) | 2× RTX 5090 | \~$7.00  |
| Azure AI                 | Hosted API  | \~$15–20 |
| NVIDIA API               | Hosted API  | \~$12–18 |

*Clore.ai पर self-hosting, sustained workloads के लिए managed API की तुलना में 2–3× सस्ती है।*

## संबंधित गाइड्स

* [vLLM Serving](/guides/guides_v2-hi/language-models/vllm.md) — OpenAI-compatible API के साथ production LLM server
* [SGLang](/guides/guides_v2-hi/language-models/sglang.md) — RadixAttention के साथ तेज़ MoE throughput
* [DeepSeek V4](/guides/guides_v2-hi/language-models/deepseek-v4.md) — आने वाला 1T-parameter open model
* [CrewAI](/guides/guides_v2-hi/ai-platforms-and-agents/crewai.md) — role-based agents के साथ multi-agent pipelines बनाएं
* [OpenHands](/guides/guides_v2-hi/ai-platforms-and-agents/openhands.md) — स्वायत्त software engineering agents
* [GPU तुलना](/guides/guides_v2-hi/getting-started/gpu-comparison.md) — अपने workload के लिए सही GPU चुनें

***

*अंतिम अद्यतन: 16 मार्च, 2026 | मॉडल जारी: 11 मार्च, 2026 | लाइसेंस: NVIDIA Nemotron Open Model License*


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-hi/language-models/nvidia-nemotron-3-super.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
