> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/qwen36-27b.md).

# Qwen3.6-27B (Dense, Single-GPU)

{% hint style="info" %}
**Statut (avril 2026) :** Qwen3.6-27B a été publié par Alibaba le **21 avril 2026** sous la **licence Apache 2.0** . Les poids sont disponibles sur [huggingface.co/Qwen/Qwen3.6-27B](https://huggingface.co/Qwen/Qwen3.6-27B). C’est un **modèle dense** de 27B — pas un MoE — avec un **contexte natif de 262K jetons** qui s’étend à **1M jetons avec YaRN**, et une prise en charge dès le jour 0 dans vLLM, SGLang et Ollama.
{% endhint %}

Les géants MoE de 2026 — DeepSeek V4, GLM-5.1, MiMo-V2.5-Pro — sont enthousiasmants sur les benchmarks mais pénalisants en pratique : des centaines de Go de poids, des baies multi-GPU, des kernels de routage d’experts fragiles et des factures d’inférence qui font grimacer les équipes finance. Qwen3.6-27B prend la direction opposée. C’est **modèle dense**un modèle dense, chaque paramètre s’active à chaque jeton, la VRAM est prévisible au gigaoctet près, et il n’y a aucune surprise de routage d’experts lorsque vous dépassez un contexte de 8K.

Pour la plupart des équipes, la question n’est pas « peut-on faire tourner un MoE de 744B » — c’est « peut-on mettre une bonne carte dans notre cluster et y servir un assistant de code de classe frontier ? » Qwen3.6-27B est conçu exactement pour cela. Q4 tient sur une seule **RTX 4090 24 Go**Q8 tient sur une seule **RTX 5090 32GB**BF16 tient sur une seule **L40S 48 Go** ou **A100 40 Go**, et Alibaba publie **77,2 % sur SWE-Bench Verified** (revendication du fournisseur). Une carte, un conteneur, un modèle.

### Spécifications clés

| Propriété         | Valeur                          |
| ----------------- | ------------------------------- |
| Paramètres        | 27B (dense)                     |
| Architecture      | Transformer dense decoder-only  |
| Contexte natif    | 262 144 jetons                  |
| Contexte étendu   | 1 000 000 jetons (YaRN)         |
| Licence           | licence Apache 2.0              |
| Date de sortie    | 21 avril 2026                   |
| Organisation      | Alibaba (équipe Qwen)           |
| Outils principaux | vLLM, SGLang, Ollama, llama.cpp |

### Pourquoi Qwen3.6-27B ?

* **Économie d’une seule GPU** — Q4 sur RTX 4090 à partir de **0,70–2,50 $/h** sur Clore.ai ; aucune orchestration de parallélisme tensoriel à déboguer
* **Dense, pas MoE** — VRAM fixe, aucun point chaud d’expert, aucune latence en pics sur certaines requêtes
* **licence Apache 2.0** — entièrement commercial, ajustable par fine-tuning, redistribuable, sans limites d’utilisation
* **Contexte natif 262K, 1M avec YaRN** — bases de code entières, livres complets, heures de transcriptions en une seule passe
* **Prise en charge dès le jour 0 par vLLM / SGLang / Ollama** — choisissez votre pile de service ; Qwen a livré des configurations pour les trois à la sortie
* **77,2 % SWE-Bench Verified** (revendication du fournisseur) — compétitif avec des modèles MoE bien plus grands sur de vraies tâches de code

***

## Exigences

{% hint style="success" %}
**Tout l’intérêt est que ce modèle est indulgent.** Une seule RTX 4090 du marché Clore.ai suffit pour faire tourner Qwen3.6-27B en qualité de niveau production (Q4) ou à une vitesse « suffisante pour la plupart des cas d’usage ». Pas de casse-tête multi-GPU.
{% endhint %}

| Composant     | Q4 (GGUF / AWQ)   | Q8 (GGUF / GPTQ)  | BF16                           | FP16 complet                     |
| ------------- | ----------------- | ----------------- | ------------------------------ | -------------------------------- |
| GPU           | 1× RTX 4090 24 Go | 1× RTX 5090 32 Go | 1× L40S 48 Go ou 1× A100 40 Go | 1× A100 80 Go                    |
| VRAM utilisée | \~16–18 Go        | \~28–30 Go        | \~54 Go                        | \~54 Go + marge pour le cache KV |
| RAM           | 32GB              | 32GB              | 64 Go                          | 96 Go                            |
| Disque        | 20 Go NVMe        | 32 Go NVMe        | 60 Go NVMe                     | 60 Go NVMe                       |
| CUDA          | 12.1+             | 12.4+             | 12.1+                          | 12.1+                            |

**Choix Clore.ai :** Pour 90 % des équipes, une seule **RTX 4090 24 Go** exécutant Q4 (AWQ ou GGUF) est la bonne réponse. Vous obtenez un codage de classe frontier pour le prix de quelques cafés par jour. Passez à une RTX 5090 32 Go si vous voulez Q8 pour une qualité légèrement meilleure, ou à une L40S / A100 40 Go pour une inférence de production BF16 complète.

***

## Option A — Ollama (quantifié, le plus simple)

Ollama est le chemin le plus rapide de « j’ai une GPU Clore.ai » à « j’ai un point de terminaison de chat ».

```bash
# Récupérer Qwen3.6-27B (Q4_K_M par défaut, téléchargement d’environ 17 Go)
ollama pull qwen3.6:27b

# Exécution interactive
ollama run qwen3.6:27b

# Ou exposer l’API compatible OpenAI
ollama serve &

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.6:27b",
    "messages": [
      {"role": "system", "content": "Vous êtes un ingénieur Go senior."},
      {"role": "user", "content": "Refactorez ce gestionnaire pour utiliser correctement context.Context et ajoutez des tentatives avec backoff exponentiel."}
    ],
    "temperature": 0.6
  }'
```

{% hint style="info" %}
Le tag `qwen3.6:27b` par défaut `qwen3.6:27b-q8_0` dans Ollama correspond à Q4\_K\_M. Utilisez `qwen3.6:27b-fp16` pour la pleine précision (nécessite une A100 80 Go).
{% endhint %}

***

## Option B — vLLM (production)

vLLM est le serveur de production recommandé. La configuration mono-GPU ci-dessous vise une RTX 4090 avec quantification AWQ. La section multi-GPU est là pour être complète — mais avec un modèle dense de 27B, vous en avez presque jamais besoin.

```yaml
# docker-compose.yml — une seule RTX 4090, Q4 AWQ
version: "3.8"
services:
  vllm:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - hf_cache:/root/.cache/huggingface
    command: >
      --model Qwen/Qwen3.6-27B-Instruct-AWQ
      --quantization awq
      --max-model-len 65536
      --gpu-memory-utilization 0.92
      --served-model-name qwen3.6-27b
      --enable-auto-tool-choice
      --tool-call-parser hermes
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]
    shm_size: "8gb"

volumes:
  hf_cache:
```

```bash
# Tester l’API
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.6-27b",
    "messages": [
      {"role": "user", "content": "Expliquez la différence entre les modèles MoE et les modèles denses en 3 puces."}
    ],
    "max_tokens": 512,
    "temperature": 0.7
  }'
```

Pour une version complète **BF16** sur une seule L40S 48 Go ou A100 40 Go, retirez `--quantization awq` et pointez vers le point de contrôle de base (`Qwen/Qwen3.6-27B-Instruct`, `--dtype bfloat16`, `--max-model-len 131072`). Pour 2× RTX 4090 avec parallélisme tensoriel (contexte plus long, cache KV plus grand), ajoutez `--tensor-parallel-size 2`.

***

## Option C — SGLang

SGLang brille lorsque vous dépassez la fenêtre native de 262K avec YaRN. Passez `--rope-scaling` pour étendre jusqu’à \~1M jetons.

```bash
docker pull lmsysorg/sglang:latest

# Une seule GPU, contexte natif 262K
python3 -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-27B-Instruct \
  --quantization awq \
  --context-length 262144 \
  --mem-fraction-static 0.90 \
  --served-model-name qwen3.6-27b

# YaRN étendu à 1M jetons (nécessite davantage de marge VRAM)
python3 -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-27B-Instruct \
  --dtype bfloat16 \
  --context-length 1000000 \
  --json-model-override-args '{"rope_scaling":{"type":"yarn","factor":4.0,"original_max_position_embeddings":262144}}' \
  --mem-fraction-static 0.85
```

{% hint style="warning" %}
**Les coûts du contexte 1M augmentent vite.** Même avec YaRN, le cache KV pour 1M jetons en BF16 est d’environ **40–60 Go** selon la taille du lot. Prévoyez une A100 80 Go ou une H100 si vous comptez réellement remplir la fenêtre.
{% endhint %}

***

## Recommandations GPU Clore.ai

| Configuration         | VRAM  | Mode        | Performance attendue                | Coût Clore.ai       |
| --------------------- | ----- | ----------- | ----------------------------------- | ------------------- |
| **1× RTX 4090 24 Go** | 24GB  | Q4 AWQ      | 50–80 tok/s, contexte 64K           | **\~0,70–2,50 $/h** |
| 1× RTX 5090 32 Go     | 32GB  | Q8 GPTQ     | 60–90 tok/s, contexte 96K           | \~1,50–3,50 $/h     |
| 1× L40S 48 Go         | 48GB  | BF16        | 35–55 tok/s, contexte 131K          | \~1,20–2,80 $/h     |
| 1× A100 40 Go         | 40 Go | BF16        | 40–60 tok/s, contexte 96K           | \~1,00–2,50 $/h     |
| 1× A100 80 Go         | 80GB  | FP16 + 262K | 40–60 tok/s, contexte natif complet | \~1,80–3,50 $/h     |
| 2× RTX 4090           | 48GB  | BF16 TP=2   | 60–80 tok/s, contexte 262K          | \~1,50–4,50 $/h     |

{% hint style="success" %}
**Meilleur rapport qualité-prix, et de loin :** [1× RTX 4090 à partir de 0,70 $/h](https://clore.ai/rent-4090.html) exécutant Q4 AWQ via Ollama ou vLLM. Vous obtenez un modèle de code de classe frontier sur une seule carte grand public pour moins que le coût quotidien d’un abonnement Claude Pro.
{% endhint %}

***

## Cas d’utilisation

* **Déploiements de production sur une seule GPU** — un conteneur sur une seule 4090 Clore.ai et vous avez un véritable assistant de code
* **Agents de code** — 77,2 % sur SWE-Bench Verified (revendication du fournisseur) le place dans la catégorie « utile pour des PR autonomes »
* **RAG à long contexte** — 262K natif suffisent pour des bases de code entières ou des semaines de journaux de chat
* **Analyse sur 1M jetons** — avec YaRN, mettez un livre entier ou un journal git de plusieurs mois dans une seule invite
* **Sur site / isolé du réseau** — Apache 2.0 est inclus avec le produit, sans dépendance à une API
* **Fine-tuning en périphérie** — le 27B dense est compatible avec LoRA/QLoRA sur une seule carte
* **Travailleur dans un agent d’agents** — associez-le comme worker à un planificateur MoE plus grand comme [GLM-5.1](/guides/guides_v2-fr/modeles-de-langage/glm-5-1.md)

***

## Benchmarks

{% hint style="warning" %}
**Revendications du fournisseur — vérifiez indépendamment.** Les chiffres ci-dessous proviennent de la publication d’Alibaba du 21 avril 2026. Les reproductions indépendantes (Aider, BigCodeBench, classements LiveCodeBench) arrivent encore au fil de l’eau.
{% endhint %}

| Benchmark          | Qwen3.6-27B | Qwen3.5-35B | Gemma 3 27B | Llama 4 Scout |
| ------------------ | ----------- | ----------- | ----------- | ------------- |
| SWE-Bench Verified | **77.2%**   | \~71%       | \~58%       | \~54%         |
| HumanEval          | \~93%       | \~92%       | \~90%       | \~88%         |
| LiveCodeBench      | \~68%       | \~65%       | \~55%       | \~52%         |
| MMLU-Pro           | \~78%       | \~76%       | \~74%       | \~72%         |
| MATH               | \~87%       | \~85%       | \~78%       | \~76%         |

Le chiffre principal est **SWE-Bench Verified 77,2 %** — cela place un modèle dense mono-GPU dans un territoire auparavant réservé aux systèmes MoE multi-GPU. Considérez-le comme une revendication du fournisseur jusqu’à confirmation par les tableaux de bord LMSYS / Aider.

***

## Dépannage

| Problème                                 | Solution                                                                                                               |
| ---------------------------------------- | ---------------------------------------------------------------------------------------------------------------------- |
| OOM sur RTX 4090 (Q4)                    | Réduisez `--max-model-len` à 32768 ; AWQ à 65K ctx est juste à la limite de 24 Go                                      |
| `qwen3.6:27b` introuvable dans Ollama    | Mettez à jour Ollama ; le tag est arrivé fin avril 2026                                                                |
| Configuration YaRN rejetée par vLLM      | Nécessite vLLM ≥ 0.7.x ; passez via `--rope-scaling` JSON, pas des indicateurs séparés                                 |
| Appels d’outils ignorés silencieusement  | Ajoutez `--enable-auto-tool-choice --tool-call-parser hermes` dans vLLM                                                |
| Préremplissage lent sur un long contexte | Ajoutez `--enable-chunked-prefill` et réduisez la taille du lot                                                        |
| OOM du cache KV à 262K                   | Passez à Q8 ou migrez vers L40S 48 Go / A100 80 Go                                                                     |
| Mauvaise qualité près de 1M ctx          | YaRN étend les positions mais la qualité se dégrade au-delà d’environ 600K ; gardez le contenu critique près de la fin |

***

## Étapes suivantes

* **Prédécesseur :** [Qwen3.5](/guides/guides_v2-fr/modeles-de-langage/qwen35.md) — Qwen3.6-27B est le successeur dense ; même famille, codage plus précis, contexte natif plus long
* **Frère multimodal :** [Qwen3.5-Omni](/guides/guides_v2-fr/modeles-de-langage/qwen35-omni.md) — texte + audio + image + vidéo si vous avez besoin de plus que du texte
* **Classe dense-27B similaire :** [Gemma 3](/guides/guides_v2-fr/modeles-de-langage/gemma3.md) — concurrent dense 27B de Google, bon point de comparaison de base
* **Alternative MoE :** [Llama 4 Scout](/guides/guides_v2-fr/modeles-de-langage/llama4.md) — MoE mono-GPU si vous souhaitez comparer les architectures
* **Montée en gamme MoE frontier :** [GLM-5.1](/guides/guides_v2-fr/modeles-de-langage/glm-5-1.md) — lorsque le dense 27B ne suffit pas et que vous disposez d’un budget multi-GPU

### Liens

* [Qwen3.6-27B sur HuggingFace](https://huggingface.co/Qwen/Qwen3.6-27B)
* [GitHub Qwen](https://github.com/QwenLM/Qwen)
* [Blog Qwen](https://qwenlm.github.io/)
* [Docs vLLM](https://docs.vllm.ai)
* [Dépôt SGLang](https://github.com/sgl-project/sglang)
* [Bibliothèque Ollama](https://ollama.com/library/qwen3.6)
* **Louer une GPU :** [RTX 4090 à partir de 0,70 $/h](https://clore.ai/rent-4090.html) · [RTX 5090 32GB](https://clore.ai/rent-5090.html) · [Marketplace](https://clore.ai/marketplace)


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/qwen36-27b.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.