> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/hy3-preview.md).

# Hy3 Preview (Tencent Hunyuan 3, 295B MoE)

{% hint style="info" %}
**Status (April 2026):** Hy3 Preview ist die erste öffentliche Veröffentlichung von **Tencents neu aufgebauter Trainingsinfrastruktur**, veröffentlicht am **13. April 2026** und zuletzt aktualisiert am **23. April 2026**. Die Gewichte sind verfügbar unter [huggingface.co/tencent/Hy3-preview](https://huggingface.co/tencent/Hy3-preview) unter der **Tencent Hy Community License**. Unterstützung ab Tag 0 wurde in vLLM und SGLang integriert.
{% endhint %}

Hy3 Preview ist ein **295B-Parameter-Mixture-of-Experts** Sprachmodell, das nur **\~21B Parameter pro Token** (192 Experten, Top-8 geroutet) aktiviert. Es zielt auf zwei Workloads ab, bei denen Tencent sichtbar aufgeholt hat: **langfristiges Schlussfolgern** (FrontierScience-Olympiad, IMOAnswerBench, Mathematik-PhD-Prüfungen) und **agentisches Coding** (SWE-bench Verified 74,4 %, Terminal-Bench 2.0 54,4 %, laut Herstellerangabe). Das 256K-Kontextfenster plus eine MTP-(Multi-Token Prediction-)Spekulations-Dekodierungsschicht machen es praktisch für IDE-große Coding-Agents und dokumentenlastiges RAG.

Für Clore.ai-Nutzer ist die Schlagzeile **21B aktiv**. Sie brauchen kein komplettes 8×H200-Rack. Eine Tensor-Parallel-Bereitstellung über **4×A100 80GB** oder **2×H100 80GB** (BF16 mit Offload) reicht aus, um es mit brauchbarem Durchsatz bereitzustellen — Agentic-Coding der Spitzenklasse für etwa 10–20 $/Tag auf dem Marktplatz, wobei die Gewichte auf Ihrem eigenen System bleiben.

### Wichtige Spezifikationen

| Eigenschaft            | Wert                                        |
| ---------------------- | ------------------------------------------- |
| Gesamtparameter        | 295B (MoE)                                  |
| Aktive Parameter       | 21B pro Vorwärtsdurchlauf                   |
| Experten               | insgesamt 192, Top-8 geroutet               |
| Schichten              | 80 Transformer + 1 MTP                      |
| Attention              | 64 Köpfe, GQA mit 8 KV-Köpfen, Kopf-Dim 128 |
| Versteckte Größe       | 4096                                        |
| Zwischengröße          | 13,312                                      |
| Vokabular              | 120,832                                     |
| Kontextfenster         | 256.000 Token                               |
| Native Präzision       | BF16                                        |
| Lizenz                 | Tencent Hy Community License                |
| Veröffentlichungsdatum | 13. April 2026                              |
| Organisation           | Tencent Hunyuan                             |
| Primäres Tooling       | vLLM, SGLang, AngelSlim, LLaMA-Factory      |

### Warum Hy3 Preview?

* **Als erstes auf Tencents neu aufgebautem RL-Stack** — Tencent hat seine Trainingsinfrastruktur für diese Veröffentlichung neu geschrieben; erwarten Sie schnelle Iterationen durch 2026
* **21B aktives MoE** — zahlen Sie die Inferenzkosten eines etwa 21B dichten Modells, nicht von 295B
* **256K Kontext** — ausreichend für komplette Repos, lange Agentenspuren oder Multi-Dokumenten-RAG in einem Durchgang
* **MTP-Spekulationsschicht** — integrierte Multi-Token-Vorhersage sorgt für etwa 1,5–2× schnellere Dekodierung auf Hopper-Klasse-GPUs
* **Zwei Denkmodi** — `reasoning_effort: "high"` für Chain-of-Thought, `"no_think"` für schnelle direkte Antworten
* **Fokus auf Agentic Coding** — explizit optimiert für SWE-bench-ähnliche mehrstufige Tool-Nutzung und Terminal-Agents
* **Lizenz mit Open-Source-Freundlichkeit** — die Tencent Hy Community License ist für die meisten Anwendungen Apache-ähnlich; prüfen Sie für Ihren Fall die LICENSE-Datei

***

## Anforderungen

{% hint style="warning" %}
**Immer noch ein Modell der 295B-Klasse.** "21B aktiv" beschreibt den Inferenz-Compute, nicht den Speicherbedarf. Die vollständigen BF16-Gewichte sind etwa 590 GB groß und müssen in VRAM liegen (oder offloaded werden). Planen Sie 8×H100/H200 ein, wenn Sie uneingeschränkten Durchsatz wollen; 4×A100 80GB funktionieren mit Offload und kürzeren Kontexten.
{% endhint %}

| Komponente  | Minimum (Q4 GGUF, Offload) | Empfohlen (BF16, TP) | Vollständiges BF16 (Produktion) |
| ----------- | -------------------------- | -------------------- | ------------------------------- |
| GPU-VRAM    | \~80GB + 256GB RAM-Offload | 4× A100 80GB (320GB) | 8× H100 80GB oder 8× H20-3e     |
| RAM         | 256GB                      | 384GB                | 512GB                           |
| Datenträger | 700GB NVMe                 | 1TB NVMe             | 1,5TB NVMe                      |
| CUDA        | 12.4+                      | 12.4+                | 12.6+                           |
| Treiber     | 550+                       | 550+                 | 560+                            |

**Clore.ai-Auswahl:** Für die meisten Teams ist **4× A100 80GB** mit BF16-Tensor-Parallelismus und `--max-model-len 65536` der Sweet Spot (\~10–16 $/Tag). Wenn Sie den vollen 256K-Kontext mit gleichzeitigen Nutzern benötigen, wechseln Sie zu 8× H100.

***

## Option A — Ollama / GGUF (quantisiert, Community-Builds)

{% hint style="warning" %}
**Hinweis:** Hy3 Preview ist brandneu (13. April 2026) und verwendet eine benutzerdefinierte MoE-Architektur. Community-Unterstützung für llama.cpp / GGUF kommt typischerweise **2–4 Wochen** nach Veröffentlichung. Wenn Sie es heute brauchen, verwenden Sie vLLM (Option B). Prüfen Sie [huggingface.co/models?search=hy3-preview+gguf](https://huggingface.co/models?search=hy3-preview+gguf) nach Community-Quants, bevor Sie herunterladen.
{% endhint %}

```bash
# Sobald ein Q4_K_M-Build veröffentlicht ist
docker exec ollama ollama pull hy3-preview:q4_K_M
docker exec ollama ollama run hy3-preview:q4_K_M

# Oder direkt mit llama.cpp auf einem Community-GGUF
docker run --gpus all -it --rm -p 8080:8080 \
  -v $(pwd)/models:/models \
  ghcr.io/ggerganov/llama.cpp:server-cuda \
  -m /models/hy3-preview-q4_k_m.gguf \
  --n-gpu-layers 80 --ctx-size 32768 \
  --port 8080 --host 0.0.0.0
```

Vor der GGUF-Zeit kann AngelSlim (Tencents eigenes Quantisierungs-Toolkit) W4A16 / W8A8-Gewichte direkt aus dem BF16-Checkpoint erzeugen.

***

## Option B — vLLM (Produktions-API, empfohlen)

vLLM ist Tencents bevorzugtes Serving-Ziel für Hy3 Preview. Die MTP-Spekulationsschicht wird eingebunden über `--speculative-config.method mtp`.

```yaml
version: "3.8"
services:
  vllm:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - hf_cache:/root/.cache/huggingface
    command: >
      --model tencent/Hy3-preview
      --tensor-parallel-size 8
      --max-model-len 65536
      --gpu-memory-utilization 0.90
      --speculative-config.method mtp
      --speculative-config.num_speculative_tokens 1
      --tool-call-parser hy_v3
      --reasoning-parser hy_v3
      --enable-auto-tool-choice
      --served-model-name hy3-preview
      --trust-remote-code
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    shm_size: "16gb"

volumes:
  hf_cache:
```

```bash
# Testen Sie die API mit hohem Reasoning-Aufwand
curl http://localhost:8000/v1/chat/completions \\
  -H "Content-Type: application/json" \\
  -d '{
    "model": "hy3-preview",
    "messages": [
      {"role": "system", "content": "Du bist ein Experte für Softwareentwicklung."},
      {"role": "user", "content": "Überarbeite diese Python-Funktion so, dass sie async/await verwendet, und füge eine ordentliche Fehlerbehandlung hinzu."}
    ],
    "max_tokens": 4096,
    "temperature": 0.9,
    "top_p": 1.0,
    "reasoning_effort": "high"
  }'
```

{% hint style="info" %}
**Denkmodi.** Setze `reasoning_effort: "high"` um Chain-of-Thought-Spuren zu aktivieren (langsamer, aber deutlich besser bei Mathematik/Coding/Agent-Aufgaben) oder `"no_think"` für schnelle direkte Antworten. Das vom Hersteller empfohlene Sampling ist `temperature=0.9, top_p=1.0` — Sampling mit Null-Temperatur kann Reasoning-Spuren beschädigen.
{% endhint %}

{% hint style="info" %}
**Knapp bei GPUs?** Gehe runter auf `--tensor-parallel-size 4` auf 4× A100 80GB. Behalten Sie `--max-model-len 32768` und füge `--enable-chunked-prefill` bei, um die Prefill-Latenz vernünftig zu halten.
{% endhint %}

***

## Option C — SGLang

SGLang bringt Unterstützung ab Tag 0 und kombiniert die MTP-Schicht mit EAGLE-Spekulationsdekodierung für zusätzlichen Durchsatz auf Hopper.

```bash
docker pull lmsysorg/sglang:latest

python3 -m sglang.launch_server \
  --model tencent/Hy3-preview \
  --tp 8 \
  --tool-call-parser hunyuan \
  --reasoning-parser hunyuan \
  --speculative-algorithm EAGLE \
  --speculative-num-steps 1 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 2 \
  --mem-fraction-static 0.88 \
  --context-length 65536 \
  --served-model-name hy3-preview
```

Erwarten Sie einen Durchsatzanstieg um 1,5–2× bei langen Agent-Schleifen im Vergleich zur normalen Dekodierung.

***

## Clore.ai GPU-Empfehlungen

| Setup         | VRAM    | Erwartete Leistung                                 | Clore.ai-Kosten | Mieten                                                  |
| ------------- | ------- | -------------------------------------------------- | --------------- | ------------------------------------------------------- |
| 4× A100 80GB  | 320GB   | BF16 geshardet, 64K Kontext, \~15–25 Tok/s         | \~10–16 $/Tag   | [Miete A100 80GB](https://clore.ai/rent-a100-80gb.html) |
| 2× H100 80GB  | 160GB   | BF16 mit Offload, kleinerer Kontext, \~12–20 Tok/s | \~12–18 $/Tag   | [H100 mieten](https://clore.ai/rent-h100.html)          |
| 8× H100 80GB  | 640GB   | BF16 vollständig, 256K Kontext, 60+ Tok/s mit MTP  | \~48–64 $/Tag   | [H100 mieten](https://clore.ai/rent-h100.html)          |
| 8× H200 141GB | 1.128GB | BF16 vollständig + maximale Parallelität           | \~64–96 $/Tag   | [H200 mieten](https://clore.ai/rent-h200.html)          |
| 1× RTX 5090   | 32GB    | Q4 GGUF, RAM-Offload, Einzelbenutzer               | \~3,94 $/Std.   | [Marktplatz](https://clore.ai/marketplace)              |

{% hint style="success" %}
**Bestes Preis-Leistungs-Verhältnis:** 4× A100 80GB mit BF16-Tensor-Parallelismus und einem 64K-Kontextfenster. Sie erhalten einen offenen 295B-Klasse-Agentic-Coder zu ungefähr dem Preis eines Claude-Pro-Abonnements, und die Gewichte verlassen niemals Ihren gemieteten Rechner.
{% endhint %}

***

## Anwendungsfälle

* **Autonome SWE-Agents** — 74,4 % SWE-bench Verified (laut Herstellerangabe) und explizite Optimierung für lange Tool-Call-Schleifen; kombinieren Sie ihn mit OpenHands, SWE-agent oder Aider
* **Terminal-gesteuerte Agents** — 54,4 % bei Terminal-Bench 2.0 platziert ihn in der Spitzengruppe für Shell-/CLI-Workflows
* **Langfristiges Schlussfolgern** — Mathe auf Olympiadenniveau (IMOAnswerBench, FrontierScience-Olympiad) und STEM auf PhD-Niveau
* **RAG auf Codebase-Größe** — 256K Kontext passt ein komplettes Repository mittlerer Größe plus Tests in einen einzigen Prompt
* **Such- und Browsing-Agents** — BrowseComp-/WideSearch-Optimierung macht ihn zu einem starken Planer für mehrstufige Web-Recherche
* **Agent von Agents** — verwenden Sie Hy3 Preview als Planner und leichtere offene Modelle ([Qwen3.5](/guides/guides_v2-de/sprachmodelle/qwen35.md), [GLM-4.7 Flash](/guides/guides_v2-de/sprachmodelle/glm-47-flash.md)) als Worker

***

## Benchmarks

{% hint style="warning" %}
**Vom Anbieter behauptet — unabhängig verifizieren.** Alle untenstehenden Zahlen stammen aus Tencents Model Card vom 13. April 2026. Unabhängige Reproduktionen (insbesondere auf SWE-bench Verified) laufen noch ein. Behandeln Sie sie als Obergrenzen, bis LMSYS / OpenCompass sie bestätigt.
{% endhint %}

| Benchmark          | Hy3 Vorschau | GLM-5.1 | DeepSeek R1 | GPT-5.4 |
| ------------------ | ------------ | ------- | ----------- | ------- |
| SWE-bench Verified | **74.4%**    | \~79%   | \~71%       | \~78%   |
| Terminal-Bench 2.0 | **54.4%**    | —       | —           | —       |
| GPQA Diamond       | **87.2%**    | —       | \~84%       | \~88%   |
| SuperGPQA          | 51.6%        | —       | —           | —       |
| HLE                | \~30         | —       | —           | —       |

Tencent berichtet außerdem über starke Ergebnisse auf proprietären CL-bench-/CL-bench-Life-Kontextlern-Benchmarks und der Tsinghua-Qiuzhen-Math-PhD-Prüfung (Frühjahr 2026).

***

## Fehlerbehebung

| Problem                                  | Lösung                                                                                                                                                                |
| ---------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| `OutOfMemoryError` beim Laden            | BF16 benötigt insgesamt etwa 590 GB VRAM. Reduzieren Sie auf 4×A100 mit `--max-model-len 32768` oder verwenden Sie AngelSlim W4A16-Quants.                            |
| Langsamer HuggingFace-Download           | Verwende `huggingface-cli download tencent/Hy3-preview --local-dir ./weights --resume-download`. Rechnen Sie mit 590GB+.                                              |
| Tool-Calls stillschweigend verworfen     | Stellen Sie sicher, dass `--tool-call-parser hy_v3` (vLLM) oder `--tool-call-parser hunyuan` (SGLang) gesetzt ist, und `--enable-auto-tool-choice` ist aktiviert.     |
| Reasoning-Trace leer / falsch            | Verwende `temperature=0.9, top_p=1.0`. Greedy-Dekodierung mit Null-Temperatur bricht die Chain-of-Thought. Bestätigen Sie `reasoning_effort: "high"`.                 |
| MTP-Spekulationsdekodierungsfehler       | Erfordert ein aktuelles vLLM (Build nach April 2026). Führen Sie aus `pip install -U vllm --pre` oder pinnen Sie auf ein Tag, in dessen Release Notes `mtp` aufführt. |
| 256K-Kontext führt zu OOMs               | Beginnen Sie bei `--max-model-len 32768`, aktivieren Sie `--enable-chunked-prefill`, erhöhen Sie schrittweise. Der volle 256K-Kontext benötigt realistisch 8× H200.   |
| Benutzerdefinierte Architektur abgelehnt | Übergeben Sie immer `--trust-remote-code`. Hy3 wird mit benutzerdefiniertem Modellierungscode zusammen mit dem Checkpoint ausgeliefert.                               |
| Ollama / GGUF nicht verfügbar            | Community-Quants erscheinen typischerweise 2–4 Wochen nach Veröffentlichung. Verwenden Sie in der Zwischenzeit vLLM oder AngelSlim.                                   |

***

## Nächste Schritte

* **Nächster offener Peer mit offenen Gewichten:** [GLM-5.1](/guides/guides_v2-de/sprachmodelle/glm-5-1.md) — 744B / 40B-aktiv MoE, MIT-Lizenz, Top-SWE-bench-Pro-Werte
* **Multimodale Alternative:** [Qwen3.5-Omni](/guides/guides_v2-de/sprachmodelle/qwen35-omni.md) — Text + Audio + Bild + Video, läuft auf einer einzelnen RTX 4090
* **Reasoning-only-Alternative:** [DeepSeek R1](/guides/guides_v2-de/sprachmodelle/deepseek-r1.md) — reiner Spezialist für langes Schlussfolgern
* **Hardware mieten:** [A100 80GB auf Clore.ai mieten](https://clore.ai/rent-a100-80gb.html) — 4× A100 80GB-Instanzen ab etwa 10 $/Tag
* **Gesamter Marktplatz:** [clore.ai/marketplace](https://clore.ai/marketplace) — H100, H200, A100, RTX 5090 ab 0,50 $/Tag

### Links

* [Hy3 Preview auf HuggingFace](https://huggingface.co/tencent/Hy3-preview)
* [Hy3 Preview GitHub-Repo](https://github.com/Tencent-Hunyuan/Hy3-preview)
* [Tencent Hunyuan-Organisation](https://huggingface.co/tencent)
* [vLLM-Dokumentation](https://docs.vllm.ai)
* [SGLang-Repo](https://github.com/sgl-project/sglang)
* [AngelSlim — Tencents Quantisierungs-Toolkit](https://github.com/Tencent/AngelSlim)


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/hy3-preview.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
