# Qwen3.6-27B (Dense, Single-GPU)

{% hint style="info" %}
**Status (April 2026):** Qwen3.6-27B wurde von Alibaba am **21. April 2026** unter der **Apache 2.0** Lizenz veröffentlicht. Die Gewichte sind verfügbar unter [huggingface.co/Qwen/Qwen3.6-27B](https://huggingface.co/Qwen/Qwen3.6-27B). Es ist ein **dichtes** 27B-Modell — kein MoE — mit einem **262K-Token nativen Kontext** der erweitert wird auf **1 Mio. Tokens mit YaRN**, und Unterstützung ab Tag 0 für vLLM, SGLang und Ollama.
{% endhint %}

Die MoE-Giganten von 2026 — DeepSeek V4, GLM-5.1, MiMo-V2.5-Pro — sind in Benchmarks spannend, in der Praxis aber kostspielig: Hunderte GB an Gewichten, Multi-GPU-Racks, fragil routende Experten-Kerne und Inferenzrechnungen, bei denen Finanzteams zusammenzucken. Qwen3.6-27B geht in die andere Richtung. Es ist **dichtes**, jeder Parameter wird bei jedem Token aktiviert, der VRAM ist bis auf das Gigabyte vorhersehbar, und es gibt keine Überraschungen beim Expert-Routing, wenn man den 8K-Kontext überschreitet.

Für die meisten Teams ist die Frage nicht „können wir ein 744B-MoE bereitstellen?“ — sondern „können wir eine gute Karte in unseren Cluster stecken und darauf einen Coding-Assistenten auf Frontier-Niveau betreiben?“ Qwen3.6-27B ist genau dafür gebaut. Q4 passt auf eine einzelne **RTX 4090 24GB**, Q8 passt auf eine einzelne **RTX 5090 32GB**, BF16 passt auf eine einzelne **L40S 48GB** oder **A100 40GB**und Alibaba veröffentlicht **77,2 % auf SWE-Bench Verified** (vom Anbieter behauptet). Eine Karte, ein Container, ein Modell.

### Wichtige Spezifikationen

| Eigenschaft            | Wert                             |
| ---------------------- | -------------------------------- |
| Parameter              | 27B (dicht)                      |
| Architektur            | Dichter Decoder-only-Transformer |
| Nativer Kontext        | 262.144 Tokens                   |
| Erweiterter Kontext    | 1.000.000 Tokens (YaRN)          |
| Lizenz                 | Apache 2.0                       |
| Veröffentlichungsdatum | 21. April 2026                   |
| Organisation           | Alibaba (Qwen-Team)              |
| Primäres Tooling       | vLLM, SGLang, Ollama, llama.cpp  |

### Warum Qwen3.6-27B?

* **Einzel-GPU-Ökonomie** — Q4 auf RTX 4090 ab **0,70–2,50 $/Std.** bei Clore.ai; kein Debugging von Tensor-Parallel-Orchestrierung
* **Dicht, nicht MoE** — fester VRAM, kein Hot-Spotting der Experten, keine sprunghaften Latenzen bei bestimmten Prompts
* **Apache 2.0** — vollständig kommerziell nutzbar, feinabstimmbar, weiterverteilbar, keine Nutzungsobergrenzen
* **262K nativer Kontext, 1M mit YaRN** — ganze Codebasen, vollständige Bücher, Stunden an Transkripten in einem Durchlauf
* **Tag-0 vLLM / SGLang / Ollama** — wählen Sie Ihren Serving-Stack; Qwen lieferte bei Veröffentlichung Konfigurationen für alle drei
* **77,2 % SWE-Bench Verified** (vom Anbieter behauptet) — konkurrenzfähig mit viel größeren MoE-Modellen bei echten Coding-Aufgaben

***

## Anforderungen

{% hint style="success" %}
**Der ganze Punkt ist, dass dieses Modell verzeihend ist.** Eine einzelne RTX 4090 aus dem Clore.ai-Marktplatz reicht aus, um Qwen3.6-27B in produktionsreifer Qualität (Q4) oder mit Geschwindigkeiten, die für die meisten Anwendungsfälle „gut genug“ sind, zu betreiben. Kein Multi-GPU-Ärger.
{% endhint %}

| Komponente       | Q4 (GGUF / AWQ)  | Q8 (GGUF / GPTQ) | BF16                           | Volles FP16                     |
| ---------------- | ---------------- | ---------------- | ------------------------------ | ------------------------------- |
| GPU              | 1× RTX 4090 24GB | 1× RTX 5090 32GB | 1× L40S 48GB oder 1× A100 40GB | 1× A100 80GB                    |
| Verwendeter VRAM | \~16–18GB        | \~28–30GB        | \~54GB                         | \~54GB + Spielraum für KV-Cache |
| RAM              | 32GB             | 32GB             | 64GB                           | 96GB                            |
| Datenträger      | 20GB NVMe        | 32GB NVMe        | 60GB NVMe                      | 60GB NVMe                       |
| CUDA             | 12.1+            | 12.4+            | 12.1+                          | 12.1+                           |

**Clore.ai-Tipp:** Für 90 % der Teams ist eine einzelne **RTX 4090 24GB** mit Q4 (AWQ oder GGUF) die richtige Antwort. Sie erhalten Coding auf Frontier-Niveau zum Preis von ein paar Kaffees pro Tag. Steigen Sie auf eine RTX 5090 32GB um, wenn Sie Q8 für etwas bessere Qualität wollen, oder auf L40S / A100 40GB für volle BF16-Produktionsinferenz.

***

## Option A — Ollama (quantisiert, am einfachsten)

Ollama ist der schnellste Weg von „Ich habe eine Clore.ai-GPU“ zu „Ich habe einen Chat-Endpunkt“.

```bash
# Qwen3.6-27B abrufen (standardmäßig Q4_K_M, ~17GB Download)
ollama pull qwen3.6:27b

# Interaktiv ausführen
ollama run qwen3.6:27b

# Oder die OpenAI-kompatible API bereitstellen
ollama serve &

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.6:27b",
    "messages": [
      {"role": "system", "content": "Du bist ein Senior-Go-Engineer."},
      {"role": "user", "content": "Refaktoriere diesen Handler so, dass er context.Context korrekt verwendet, und füge Wiederholungsversuche mit exponentiellem Backoff hinzu."}
    ],
    "temperature": 0.6
  }'
```

{% hint style="info" %}
Das Standard- `qwen3.6:27b` -Tag in Ollama entspricht Q4\_K\_M. Verwenden Sie `qwen3.6:27b-q8_0` für Q8, wenn Sie eine RTX 5090 haben, oder `qwen3.6:27b-fp16` für volle Präzision (benötigt eine A100 80GB).
{% endhint %}

***

## Option B — vLLM (Produktion)

vLLM ist der empfohlene Produktionsserver. Die untenstehende Konfiguration für eine einzelne GPU zielt auf die RTX 4090 mit AWQ-Quantisierung ab. Der Multi-GPU-Abschnitt ist der Vollständigkeit halber da — aber bei einem 27B-dichten Modell braucht man ihn fast nie.

```yaml
# docker-compose.yml — einzelne RTX 4090, Q4 AWQ
version: "3.8"
services:
  vllm:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - hf_cache:/root/.cache/huggingface
    command: >
      --model Qwen/Qwen3.6-27B-Instruct-AWQ
      --quantization awq
      --max-model-len 65536
      --gpu-memory-utilization 0.92
      --served-model-name qwen3.6-27b
      --enable-auto-tool-choice
      --tool-call-parser hermes
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]
    shm_size: "8gb"

volumes:
  hf_cache:
```

```bash
# API testen
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.6-27b",
    "messages": [
      {"role": "user", "content": "Erkläre den Unterschied zwischen MoE- und dichten Modellen in 3 Stichpunkten."}
    ],
    "max_tokens": 512,
    "temperature": 0.7
  }'
```

Für volle **BF16** auf einer einzelnen L40S 48GB oder A100 40GB, entfernen Sie `--quantization awq` und verweisen Sie auf den Basis-Checkpoint (`Qwen/Qwen3.6-27B-Instruct`, `--dtype bfloat16`, `--max-model-len 131072`). Für 2× RTX 4090 mit Tensor Parallelism (längerer Kontext, größerer KV-Cache) fügen Sie hinzu `--tensor-parallel-size 2`.

***

## Option C — SGLang

SGLang glänzt, wenn Sie mit YaRN über das native 262K-Fenster hinausgehen. Übergeben Sie `--rope-scaling` um auf \~1 Mio. Tokens zu erweitern.

```bash
docker pull lmsysorg/sglang:latest

# Einzel-GPU, nativer 262K-Kontext
python3 -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-27B-Instruct \
  --quantization awq \
  --context-length 262144 \
  --mem-fraction-static 0.90 \
  --served-model-name qwen3.6-27b

# Mit YaRN auf 1 Mio. Tokens erweitert (benötigt mehr VRAM-Spielraum)
python3 -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-27B-Instruct \
  --dtype bfloat16 \
  --context-length 1000000 \
  --json-model-override-args '{"rope_scaling":{"type":"yarn","factor":4.0,"original_max_position_embeddings":262144}}' \
  --mem-fraction-static 0.85
```

{% hint style="warning" %}
**Die Kosten für 1M Kontext steigen schnell.** Selbst mit YaRN beträgt der KV-Cache für 1M Tokens bei BF16 ungefähr **40–60GB** je nach Batch-Größe. Planen Sie für eine A100 80GB oder H100, wenn Sie das Fenster tatsächlich ausfüllen wollen.
{% endhint %}

***

## Clore.ai-GPU-Empfehlungen

| Setup                | VRAM | Modus       | Erwartete Leistung                  | Kosten auf Clore.ai    |
| -------------------- | ---- | ----------- | ----------------------------------- | ---------------------- |
| **1× RTX 4090 24GB** | 24GB | Q4 AWQ      | 50–80 Tok/s, 64K-ctx                | **\~0,70–2,50 $/Std.** |
| 1× RTX 5090 32GB     | 32GB | Q8 GPTQ     | 60–90 Tok/s, 96K-ctx                | \~1,50–3,50 $/Std.     |
| 1× L40S 48GB         | 48GB | BF16        | 35–55 Tok/s, 131K-ctx               | \~1,20–2,80 $/Std.     |
| 1× A100 40GB         | 40GB | BF16        | 40–60 Tok/s, 96K-ctx                | \~1,00–2,50 $/Std.     |
| 1× A100 80GB         | 80GB | FP16 + 262K | 40–60 Tok/s, voller nativer Kontext | \~1,80–3,50 $/Std.     |
| 2× RTX 4090          | 48GB | BF16 TP=2   | 60–80 Tok/s, 262K-ctx               | \~1,50–4,50 $/Std.     |

{% hint style="success" %}
**Mit Abstand das beste Preis-Leistungs-Verhältnis:** [1× RTX 4090 ab 0,70 $/Std.](https://clore.ai/rent-4090.html) mit Q4 AWQ über Ollama oder vLLM. Sie erhalten ein Coding-Modell auf Frontier-Niveau auf einer einzigen Consumer-Karte für weniger als die täglichen Kosten eines Claude-Pro-Abonnements.
{% endhint %}

***

## Anwendungsfälle

* **Produktive Single-GPU-Bereitstellungen** — ein Container auf einer einzelnen Clore.ai 4090 und Sie haben einen echten Coding-Assistenten
* **Coding-Agenten** — 77,2 % SWE-Bench Verified (vom Anbieter behauptet) ordnet es in die Kategorie „nützlich für autonome PRs“ ein
* **RAG mit langem Kontext** — 262K nativ reichen für ganze Codebasen oder wochenlange Chat-Protokolle
* **Analyse mit 1 Mio. Tokens** — mit YaRN können Sie ein ganzes Buch oder ein mehrmonatiges Git-Log in einen einzigen Prompt packen
* **On-Prem / luftgekapselt** — Apache 2.0 ist im Produkt enthalten, keine API-Abhängigkeit
* **Feinabstimmung am Rand** — 27B dicht ist freundlich für LoRA/QLoRA auf einer einzigen Karte
* **Worker in Agenten-von-Agenten** — als Worker mit einem größeren MoE-Planer koppeln wie [GLM-5.1](/guides/guides_v2-de/sprachmodelle/glm-5-1.md)

***

## Benchmarks

{% hint style="warning" %}
**Vom Anbieter behauptet — unabhängig verifizieren.** Die Zahlen unten stammen aus Alibabas Veröffentlichungsbeitrag vom 21. April 2026. Unabhängige Reproduktionen (Aider-, BigCodeBench-, LiveCodeBench-Leaderboards) laufen noch ein.
{% endhint %}

| Benchmark          | Qwen3.6-27B | Qwen3.5-35B | Gemma 3 27B | Llama 4 Scout |
| ------------------ | ----------- | ----------- | ----------- | ------------- |
| SWE-Bench Verified | **77.2%**   | \~71%       | \~58%       | \~54%         |
| HumanEval          | \~93%       | \~92%       | \~90%       | \~88%         |
| LiveCodeBench      | \~68%       | \~65%       | \~55%       | \~52%         |
| MMLU-Pro           | \~78%       | \~76%       | \~74%       | \~72%         |
| MATH               | \~87%       | \~85%       | \~78%       | \~76%         |

Die Schlagzeilenzahl ist **SWE-Bench Verified 77,2 %** — das bringt ein einzelnes dichtes GPU-Modell in ein Gebiet, das zuvor Multi-GPU-MoE-Systemen vorbehalten war. Behandeln Sie es als Anbieterbehauptung, bis LMSYS-/Aider-Boards dies bestätigen.

***

## Fehlerbehebung

| Problem                                | Lösung                                                                                                                           |
| -------------------------------------- | -------------------------------------------------------------------------------------------------------------------------------- |
| OOM auf RTX 4090 (Q4)                  | Verkleinern Sie `--max-model-len` auf 32768; AWQ bei 65K ctx liegt genau am Rand von 24GB                                        |
| `qwen3.6:27b` nicht in Ollama gefunden | Ollama aktualisieren; der Tag erschien Ende April 2026                                                                           |
| YaRN-Konfiguration von vLLM abgelehnt  | Erfordert vLLM ≥ 0.7.x; übergeben Sie es via `--rope-scaling` JSON, nicht als separate Flags                                     |
| Tool-Aufrufe stillschweigend verworfen | Fügen Sie hinzu `--enable-auto-tool-choice --tool-call-parser hermes` in vLLM                                                    |
| Langsames Prefill bei langem Kontext   | Fügen Sie hinzu `--enable-chunked-prefill` und reduzieren Sie die Batch-Größe                                                    |
| KV-Cache-OOM bei 262K                  | Wechseln Sie auf Q8 oder gehen Sie zu L40S 48GB / A100 80GB                                                                      |
| Schlechte Qualität nahe 1M ctx         | YaRN erweitert Positionen, aber die Qualität verschlechtert sich jenseits von \~600K; halten Sie kritische Inhalte nahe dem Ende |

***

## Nächste Schritte

* **Vorgänger:** [Qwen3.5](/guides/guides_v2-de/sprachmodelle/qwen35.md) — Qwen3.6-27B ist der dichte Nachfolger; gleiche Familie, schärferes Coding, längerer nativer Kontext
* **Multimodaler Verwandter:** [Qwen3.5-Omni](/guides/guides_v2-de/sprachmodelle/qwen35-omni.md) — Text + Audio + Bild + Video, wenn Sie mehr als Text brauchen
* **Ähnliche 27B-dichte Klasse:** [Gemma 3](/guides/guides_v2-de/sprachmodelle/gemma3.md) — Googles dichte 27B-Konkurrenz, guter Baseline-Vergleich
* **MoE-Alternative:** [Llama 4 Scout](/guides/guides_v2-de/sprachmodelle/llama4.md) — Single-GPU-MoE, wenn Sie Architekturen vergleichen möchten
* **Frontier-MoE-Upgrade:** [GLM-5.1](/guides/guides_v2-de/sprachmodelle/glm-5-1.md) — wenn 27B dicht nicht ausreicht und Sie Multi-GPU-Budget haben

### Links

* [Qwen3.6-27B auf HuggingFace](https://huggingface.co/Qwen/Qwen3.6-27B)
* [Qwen GitHub](https://github.com/QwenLM/Qwen)
* [Qwen Blog](https://qwenlm.github.io/)
* [vLLM-Dokumentation](https://docs.vllm.ai)
* [SGLang-Repo](https://github.com/sgl-project/sglang)
* [Ollama-Bibliothek](https://ollama.com/library/qwen3.6)
* **GPU mieten:** [RTX 4090 ab 0,70 $/Std.](https://clore.ai/rent-4090.html) · [RTX 5090 32GB](https://clore.ai/rent-5090.html) · [Marktplatz](https://clore.ai/marketplace)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/qwen36-27b.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
