# Hy3 Preview (Tencent Hunyuan 3, 295B MoE)

{% hint style="info" %}
**स्थिति (अप्रैल 2026):** Hy3 Preview से **Tencent Hunyuan की पुनर्निर्मित प्रशिक्षण अवसंरचना** से प्रकाशित, **13 अप्रैल, 2026** और अंतिम बार अद्यतन **23 अप्रैल, 2026**. वेट्स यहाँ उपलब्ध हैं [huggingface.co/tencent/Hy3-preview](https://huggingface.co/tencent/Hy3-preview) के अंतर्गत **Tencent Hy Community License**. Day-0 समर्थन vLLM और SGLang में उपलब्ध हो गया।
{% endhint %}

Hy3 Preview एक **295B-पैरामीटर Mixture-of-Experts** भाषा मॉडल है जो केवल सक्रिय करता है **प्रति टोकन लगभग 21B पैरामीटर** (192 एक्सपर्ट्स, शीर्ष-8 रूटेड). यह दो कार्यभारों को लक्षित करता है जहाँ Tencent स्पष्ट रूप से पकड़ बना रहा है: **लंबी-क्षितिज तर्कशक्ति** (FrontierScience-Olympiad, IMOAnswerBench, math-PhD परीक्षाएँ) और **एजेंटिक कोडिंग** (SWE-bench Verified 74.4%, Terminal-Bench 2.0 54.4%, विक्रेता-आधारित दावा). 256K कॉन्टेक्स्ट विंडो के साथ MTP (Multi-Token Prediction) speculative-decoding लेयर इसे IDE-स्केल कोडिंग एजेंटों और दस्तावेज़-भारी RAG के लिए व्यावहारिक बनाती है।

Clore.ai उपयोगकर्ताओं के लिए, मुख्य संख्या है **21B सक्रिय**. आपको पूरा 8×H200 रैक नहीं चाहिए। **4×A100 80GB** या **2×H100 80GB** के पार एक tensor-parallel deployment (BF16 with offload) पर्याप्त है, ताकि इसे उपयोगी throughput पर सर्व किया जा सके — मार्केटप्लेस पर लगभग $10–20/दिन में frontier-class agentic coding, और वेट्स आपके अपने बॉक्स पर ही रहते हैं।

### मुख्य विशिष्टताएँ

| गुण               | मान                                           |
| ----------------- | --------------------------------------------- |
| कुल पैरामीटर      | 295B (MoE)                                    |
| सक्रिय पैरामीटर   | प्रति फॉरवर्ड पास 21B                         |
| एक्सपर्ट्स        | कुल 192, शीर्ष-8 रूटेड                        |
| परतें             | 80 transformer + 1 MTP                        |
| अटेंशन            | 64 heads, 8 KV heads के साथ GQA, head dim 128 |
| हिडन साइज         | 4096                                          |
| मध्यवर्ती साइज    | 13,312                                        |
| शब्दावली          | 120,832                                       |
| कॉन्टेक्स्ट विंडो | 256,000 टोकन                                  |
| मूल प्रिसीजन      | BF16                                          |
| लाइसेंस           | Tencent Hy Community License                  |
| रिलीज़ तिथि       | 13 अप्रैल, 2026                               |
| संगठन             | Tencent Hunyuan                               |
| प्राथमिक टूलिंग   | vLLM, SGLang, AngelSlim, LLaMA-Factory        |

### Hy3 Preview क्यों?

* **Tencent के पुनर्निर्मित RL stack पर पहला** — Tencent ने इस रिलीज़ के लिए अपनी training infrastructure को फिर से लिखा; 2026 भर तेज़ iteration की उम्मीद करें
* **21B सक्रिय MoE** — 295B के बजाय लगभग 21B dense मॉडल की inference लागत चुकाएँ
* **256K कॉन्टेक्स्ट** — पूरे repos, लंबे agent traces, या multi-document RAG के लिए एक ही बार में पर्याप्त
* **MTP speculative layer** — built-in multi-token prediction Hopper-class GPUs पर लगभग 1.5–2× decode speedup देती है
* **दो reasoning modes** — `reasoning_effort: "high"` chain-of-thought के लिए, `"no_think"` तेज़ सीधे उत्तरों के लिए
* **Agentic-coding पर फोकस** — SWE-bench-शैली के multi-turn tool use और terminal agents के लिए स्पष्ट रूप से ट्यून किया गया
* **ओपन-सोर्स-अनुकूल लाइसेंस** — Tencent Hy Community License अधिकांश उपयोगों के लिए Apache-शैली का है; अपने मामले के लिए LICENSE फ़ाइल जाँचें

***

## आवश्यकताएँ

{% hint style="warning" %}
**फिर भी 295B-श्रेणी का मॉडल।** "21B active" inference compute को दर्शाता है, memory footprint को नहीं। पूरे BF16 weights लगभग 590GB हैं और उन्हें VRAM में रहना चाहिए (या offload करना होगा)। यदि आप unrestricted throughput चाहते हैं तो 8×H100/H200 की योजना बनाएं; 4×A100 80GB offload और छोटे contexts के साथ काम करता है।
{% endhint %}

| घटक      | न्यूनतम (Q4 GGUF, offload) | अनुशंसित (BF16, TP)  | पूर्ण BF16 (production)   |
| -------- | -------------------------- | -------------------- | ------------------------- |
| GPU VRAM | \~80GB + 256GB RAM offload | 4× A100 80GB (320GB) | 8× H100 80GB या 8× H20-3e |
| RAM      | 256GB                      | 384GB                | 512GB                     |
| डिस्क    | 700GB NVMe                 | 1TB NVMe             | 1.5TB NVMe                |
| CUDA     | 12.4+                      | 12.4+                | 12.6+                     |
| ड्राइवर  | 550+                       | 550+                 | 560+                      |

**Clore.ai चयन:** अधिकांश टीमों के लिए, **4× A100 80GB** BF16 tensor-parallel और `--max-model-len 65536` सबसे उपयुक्त विकल्प है (\~$10–16/दिन). यदि आपको concurrent users के साथ पूरा 256K context चाहिए, तो 8× H100 पर जाएँ।

***

## विकल्प A — Ollama / GGUF (Quantized, community builds)

{% hint style="warning" %}
**ध्यान दें:** Hy3 Preview बिल्कुल नया है (13 अप्रैल, 2026) और एक custom MoE architecture का उपयोग करता है। समुदाय का llama.cpp / GGUF समर्थन आम तौर पर **2–4 सप्ताह** बाद आता है। यदि आपको आज ही चाहिए, तो vLLM (Option B) का उपयोग करें। देखें [huggingface.co/models?search=hy3-preview+gguf](https://huggingface.co/models?search=hy3-preview+gguf) डाउनलोड करने से पहले community quants के लिए।
{% endhint %}

```bash
# एक बार Q4_K_M build प्रकाशित होने पर
docker exec ollama ollama pull hy3-preview:q4_K_M
docker exec ollama ollama run hy3-preview:q4_K_M

# या community GGUF पर सीधे llama.cpp के साथ
docker run --gpus all -it --rm -p 8080:8080 \
  -v $(pwd)/models:/models \
  ghcr.io/ggerganov/llama.cpp:server-cuda \
  -m /models/hy3-preview-q4_k_m.gguf \\
  --n-gpu-layers 80 --ctx-size 32768 \
  --port 8080 --host 0.0.0.0
```

पूर्व-GGUF दिनों में, AngelSlim (Tencent का अपना quantization toolkit) BF16 checkpoint से सीधे W4A16 / W8A8 वेट्स बना सकता है।

***

## विकल्प B — vLLM (प्रोडक्शन API, अनुशंसित)

vLLM Hy3 Preview के लिए Tencent का first-class serving target है। MTP speculative layer को यहाँ जोड़ा गया है `--speculative-config.method mtp`.

```yaml
version: "3.8"
services:
  vllm:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - hf_cache:/root/.cache/huggingface
    command: >
      --model tencent/Hy3-preview
      --tensor-parallel-size 8
      --max-model-len 65536
      --gpu-memory-utilization 0.90
      --speculative-config.method mtp
      --speculative-config.num_speculative_tokens 1
      --tool-call-parser hy_v3
      --reasoning-parser hy_v3
      --enable-auto-tool-choice
      --served-model-name hy3-preview
      --trust-remote-code
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    shm_size: "16gb"

volumes:
  hf_cache:
```

```bash
# उच्च reasoning effort के साथ API का परीक्षण करें
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "hy3-preview",
    "messages": [
      {"role": "system", "content": "आप एक विशेषज्ञ सॉफ़्टवेयर इंजीनियर हैं।"},
      {"role": "user", "content": "इस Python function को async/await का उपयोग करने के लिए refactor करें और उचित error handling जोड़ें."}
    ],
    "max_tokens": 4096,
    "temperature": 0.9,
    "top_p": 1.0,
    "reasoning_effort": "high"
  }'
```

{% hint style="info" %}
**Reasoning modes.** सेट करें `reasoning_effort: "high"` chain-of-thought traces सक्षम करने के लिए (धीमा, math/coding/agent tasks में बहुत बेहतर) या `"no_think"` तेज़ सीधे उत्तरों के लिए। विक्रेता-प्रस्तावित sampling है `temperature=0.9, top_p=1.0` — zero-temp sampling reasoning traces को तोड़ सकती है।
{% endhint %}

{% hint style="info" %}
**GPU कम पड़ रहे हैं?** इसे घटाकर `--tensor-parallel-size 4` 4× A100 80GB पर। रखें `--max-model-len 32768` करें और `--enable-chunked-prefill` prefill latency को उचित बनाए रखने के लिए।
{% endhint %}

***

## विकल्प C — SGLang

SGLang day-0 समर्थन के साथ आता है और Hopper पर अतिरिक्त throughput के लिए MTP layer को EAGLE speculative decoding के साथ जोड़ता है।

```bash
docker pull lmsysorg/sglang:latest

python3 -m sglang.launch_server \\
  --model tencent/Hy3-preview \\
  --tp 8 \\
  --tool-call-parser hunyuan \\
  --reasoning-parser hunyuan \\
  --speculative-algorithm EAGLE \
  --speculative-num-steps 1 \\
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 2 \\
  --mem-fraction-static 0.88 \\
  --context-length 65536 \
  --served-model-name hy3-preview
```

सामान्य decode की तुलना में लंबे agent loops पर 1.5–2× throughput boost की अपेक्षा करें।

***

## Clore.ai GPU सिफ़ारिशें

| सेटअप         | VRAM    | अपेक्षित प्रदर्शन                          | Clore.ai लागत | किराये पर लें                                                  |
| ------------- | ------- | ------------------------------------------ | ------------- | -------------------------------------------------------------- |
| 4× A100 80GB  | 320GB   | BF16 sharded, 64K ctx, \~15–25 tok/s       | \~$10–16/दिन  | [A100 80GB किराए पर लें](https://clore.ai/rent-a100-80gb.html) |
| 2× H100 80GB  | 160GB   | BF16 with offload, छोटा ctx, \~12–20 tok/s | \~$12–18/दिन  | [H100 किराए पर लें](https://clore.ai/rent-h100.html)           |
| 8× H100 80GB  | 640GB   | BF16 full, 256K ctx, MTP के साथ 60+ tok/s  | \~$48–64/दिन  | [H100 किराए पर लें](https://clore.ai/rent-h100.html)           |
| 8× H200 141GB | 1,128GB | BF16 full + अधिकतम concurrency             | \~$64–96/दिन  | [H200 किराए पर लें](https://clore.ai/rent-h200.html)           |
| 1× RTX 5090   | 32GB    | Q4 GGUF, RAM offload, एकल उपयोगकर्ता       | \~$3.94/घंटा  | [मार्केटप्लेस](https://clore.ai/marketplace)                   |

{% hint style="success" %}
**सर्वोत्तम मूल्य:** 4× A100 80GB, BF16 tensor-parallel और 64K context window के साथ। आपको लगभग Claude Pro subscription की कीमत में एक open-weight 295B-श्रेणी का agentic coder मिलता है, और वेट्स कभी भी आपके किराए के बॉक्स से बाहर नहीं जाते।
{% endhint %}

***

## उपयोग के मामले

* **Autonomous SWE agents** — 74.4% SWE-bench Verified (विक्रेता-आधारित दावा) और लंबे tool-call loops के लिए स्पष्ट ट्यूनिंग; OpenHands, SWE-agent, या Aider के साथ जोड़ें
* **Terminal-चालित agents** — 54.4% Terminal-Bench 2.0 इसे shell/CLI workflows के लिए शीर्ष स्तर में रखता है
* **लंबी-क्षितिज तर्कशक्ति** — Olympiad-स्तरीय math (IMOAnswerBench, FrontierScience-Olympiad) और PhD-स्तरीय STEM
* **Codebase-स्केल RAG** — 256K ctx एक ही prompt में पूरा मध्यम-आकार का repo और tests समाहित कर देता है
* **Search और browsing agents** — BrowseComp / WideSearch tuning इसे multi-step web research के लिए एक मजबूत planner बनाता है
* **Agent-of-agents** — Hy3 Preview को planner के रूप में और हल्के open models ([Qwen3.5](/guides/guides_v2-hi/language-models/qwen35.md), [GLM-4.7 Flash](/guides/guides_v2-hi/language-models/glm-47-flash.md)) को workers के रूप में उपयोग करें

***

## बेंचमार्क

{% hint style="warning" %}
**विक्रेता द्वारा दावा किया गया — स्वतंत्र रूप से सत्यापित करें।** नीचे दिए गए सभी नंबर Tencent के 13 अप्रैल, 2026 model card से लिए गए हैं। स्वतंत्र reproductions (विशेषकर SWE-bench Verified पर) अभी भी आ रहे हैं। LMSYS / OpenCompass के पुष्टि करने तक इन्हें upper bounds मानें।
{% endhint %}

| बेंचमार्क          | Hy3 Preview | GLM-5.1 | DeepSeek R1 | GPT-5.4 |
| ------------------ | ----------- | ------- | ----------- | ------- |
| SWE-bench Verified | **74.4%**   | \~79%   | \~71%       | \~78%   |
| Terminal-Bench 2.0 | **54.4%**   | —       | —           | —       |
| GPQA Diamond       | **87.2%**   | —       | \~84%       | \~88%   |
| SuperGPQA          | 51.6%       | —       | —           | —       |
| HLE                | \~30        | —       | —           | —       |

Tencent proprietary CL-bench / CL-bench-Life context-learning benchmarks और Tsinghua Qiuzhen Math PhD exam (Spring 2026) पर भी मजबूत परिणाम रिपोर्ट करता है।

***

## समस्या-निवारण

| समस्या                          | समाधान                                                                                                                                                        |
| ------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| `OutOfMemoryError` लोड पर       | BF16 के लिए लगभग 590GB कुल VRAM चाहिए। 4×A100 पर जाएँ `--max-model-len 32768` या AngelSlim W4A16 quants का उपयोग करें।                                        |
| धीमा HuggingFace डाउनलोड        | उपयोग करें `huggingface-cli download tencent/Hy3-preview --local-dir ./weights --resume-download`. 590GB+ की अपेक्षा करें।                                    |
| टूल कॉल्स चुपचाप छोड़ दी गईं    | सुनिश्चित करें कि `--tool-call-parser hy_v3` (vLLM) या `--tool-call-parser hunyuan` (SGLang) सेट है, और `--enable-auto-tool-choice` चालू है।                  |
| Reasoning trace खाली / गलत      | उपयोग करें `temperature=0.9, top_p=1.0`. Zero-temp greedy decoding chain-of-thought को तोड़ देता है। पुष्टि करें `reasoning_effort: "high"`.                  |
| MTP speculative decoding errors | नवीनतम vLLM (April 2026 के बाद का build) की आवश्यकता है। चलाएँ `pip install -U vllm --pre` या ऐसे tag पर pin करें जिसमें `mtp` release notes में सूचीबद्ध हो। |
| 256K context में OOMs           | यहाँ से शुरू करें `--max-model-len 32768`सक्षम करें `--enable-chunked-prefill`धीरे-धीरे बढ़ाएँ। पूर्ण 256K के लिए यथार्थतः 8× H200 चाहिए।                     |
| Custom architecture अस्वीकृत    | हमेशा पास करें `--trust-remote-code`. Hy3 checkpoint के साथ custom modeling code ship करता है।                                                                |
| Ollama / GGUF उपलब्ध नहीं है    | Community quants आम तौर पर रिलीज़ के 2–4 सप्ताह बाद आते हैं। बीच में vLLM या AngelSlim का उपयोग करें।                                                         |

***

## अगले कदम

* **सबसे नज़दीकी open-weight peer:** [GLM-5.1](/guides/guides_v2-hi/language-models/glm-5-1.md) — 744B / 40B-active MoE, MIT license, शीर्ष SWE-bench Pro स्कोर
* **मल्टीमोडल विकल्प:** [Qwen3.5-Omni](/guides/guides_v2-hi/language-models/qwen35-omni.md) — text + audio + image + video, एक ही RTX 4090 पर चलता है
* **केवल reasoning वाला विकल्प:** [DeepSeek R1](/guides/guides_v2-hi/language-models/deepseek-r1.md) — शुद्ध long-form reasoning specialist
* **हार्डवेयर किराए पर लें:** [Clore.ai पर A100 80GB किराए पर लें](https://clore.ai/rent-a100-80gb.html) — लगभग $10/दिन से 4× A100 80GB instances
* **पूरा marketplace:** [clore.ai/marketplace](https://clore.ai/marketplace) — H100, H200, A100, RTX 5090 $0.50/दिन से

### लिंक

* [HuggingFace पर Hy3 Preview](https://huggingface.co/tencent/Hy3-preview)
* [Hy3 Preview GitHub repo](https://github.com/Tencent-Hunyuan/Hy3-preview)
* [Tencent Hunyuan organization](https://huggingface.co/tencent)
* [vLLM दस्तावेज़](https://docs.vllm.ai)
* [SGLang रिपो](https://github.com/sgl-project/sglang)
* [AngelSlim — Tencent का quantization toolkit](https://github.com/Tencent/AngelSlim)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-hi/language-models/hy3-preview.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
