# Qwen3.6-27B（稠密型，单 GPU）

{% hint style="info" %}
**状态（2026年4月）：** Qwen3.6-27B 由阿里巴巴于 **2026年4月21日** ，采用 **Apache 2.0** 许可证发布。权重存放于 [huggingface.co/Qwen/Qwen3.6-27B](https://huggingface.co/Qwen/Qwen3.6-27B)。它是一个 **稠密** 27B 模型——不是 MoE——并拥有 **262K token 原生上下文** ，可通过 **YaRN 扩展到 1M token**，并在 vLLM、SGLang 和 Ollama 上实现首日支持。
{% endhint %}

2026 年的 MoE 巨头——DeepSeek V4、GLM-5.1、MiMo-V2.5-Pro——在基准测试上令人兴奋，但在实践中却很“折磨人”：数百 GB 的权重、多 GPU 机架、脆弱的专家路由内核，以及让财务团队皱眉的推理账单。Qwen3.6-27B 走的是相反的方向。它是 **稠密**，每个 token 都会激活所有参数，VRAM 占用可精确到 GB，而且当你把上下文拉到 8K 以上时，不会出现专家路由带来的意外。

对大多数团队来说，问题不是“我们能不能提供一个 744B 的 MoE”——而是“我们能不能在集群里放一张好卡，并在上面提供一个前沿级的编程助手？”Qwen3.6-27B 正是为此而生。Q4 可放入一张 **RTX 4090 24GB**，Q8 可放入一张 **RTX 5090 32GB**，BF16 可放入一张 **L40S 48GB** 或 **A100 40GB**，而阿里巴巴正在发布 **SWE-Bench Verified 上 77.2%** （厂商宣称）。一张卡、一个容器、一个模型。

### 关键规格

| 属性    | 数值                           |
| ----- | ---------------------------- |
| 参数    | 27B（稠密）                      |
| 架构    | 仅解码器的稠密 Transformer          |
| 原生上下文 | 262,144 个 token              |
| 扩展上下文 | 1,000,000 个 token（YaRN）      |
| 许可证   | Apache 2.0                   |
| 发布日期  | 2026年4月21日                   |
| 机构    | 阿里巴巴（Qwen 团队）                |
| 主要工具链 | vLLM、SGLang、Ollama、llama.cpp |

### 为什么选择 Qwen3.6-27B？

* **单 GPU 经济性** —— RTX 4090 上的 Q4 起价为 **0.70–2.50 美元/小时** 在 Clore.ai 上；无需调试张量并行编排
* **稠密，而非 MoE** —— 固定 VRAM、没有专家热点、在某些提示下没有突发性延迟
* **Apache 2.0** —— 完全可商用、可微调、可再分发、无使用上限
* **262K 原生上下文，使用 YaRN 可达 1M** —— 整个代码库、整本书、数小时的转录内容，一次处理完成
* **首日支持 vLLM / SGLang / Ollama** —— 按你的偏好选择服务栈；Qwen 在发布时就为这三者都提供了配置
* **SWE-Bench Verified 77.2%** （厂商宣称）—— 在真实编码任务上，可与更大的 MoE 模型竞争

***

## 需求

{% hint style="success" %}
**核心要点是，这个模型很“宽容”。** 在 Clore.ai 市场上，一张 RTX 4090 就足以以生产级质量（Q4）或“对大多数用例足够好”的速度运行 Qwen3.6-27B。无需折腾多 GPU。
{% endhint %}

| 组件       | Q4（GGUF / AWQ）   | Q8（GGUF / GPTQ）  | BF16                        | 完整 FP16              |
| -------- | ---------------- | ---------------- | --------------------------- | -------------------- |
| GPU      | 1× RTX 4090 24GB | 1× RTX 5090 32GB | 1× L40S 48GB 或 1× A100 40GB | 1× A100 80GB         |
| 已使用 VRAM | \~16–18GB        | \~28–30GB        | \~54GB                      | \~54GB + KV cache 余量 |
| 内存       | 32GB             | 32GB             | 64GB                        | 96GB                 |
| 磁盘       | 20GB NVMe        | 32GB NVMe        | 60GB NVMe                   | 60GB NVMe            |
| CUDA     | 12.1+            | 12.4+            | 12.1+                       | 12.1+                |

**Clore.ai 选择：** 对于 90% 的团队来说，一张 **RTX 4090 24GB** 运行 Q4（AWQ 或 GGUF）才是正确答案。你只需每天几杯咖啡的价钱，就能得到一个前沿级编程模型。若你想要 Q8 以获得稍好一些的质量，可升级到 RTX 5090 32GB；若要完整 BF16 生产推理，则升级到 L40S / A100 40GB。

***

## 方案 A — Ollama（量化版，最简单）

Ollama 是从“我有一块 Clore.ai GPU”到“我有一个聊天端点”的最快路径。

```bash
# 拉取 Qwen3.6-27B（默认 Q4_K_M，下载约 17GB）
ollama pull qwen3.6:27b

# 交互式运行
ollama run qwen3.6:27b

# 或暴露 OpenAI 兼容 API
ollama serve &

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.6:27b",
    "messages": [
      {"role": "system", "content": "你是一名资深 Go 工程师。"},
      {"role": "user", "content": "重构这个处理器以正确使用 context.Context，并添加指数退避重试。"}
    ],
    "temperature": 0.6
  }'
```

{% hint style="info" %}
Ollama 中默认的 `qwen3.6:27b` 标签映射到 Q4\_K\_M。若你有 RTX 5090，可使用 `qwen3.6:27b-q8_0` 来运行 Q8；或者使用 `qwen3.6:27b-fp16` 进行全精度运行（需要 A100 80GB）。
{% endhint %}

***

## 方案 B — vLLM（生产环境）

vLLM 是推荐的生产服务器。下面的单 GPU 配置面向使用 AWQ 量化的 RTX 4090。多 GPU 部分只是为了完整性——但对于 27B 稠密模型来说，你几乎从不需要它。

```yaml
# docker-compose.yml — 单张 RTX 4090，Q4 AWQ
version: "3.8"
services:
  vllm:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - hf_cache:/root/.cache/huggingface
    command: >
      --model Qwen/Qwen3.6-27B-Instruct-AWQ
      --quantization awq
      --max-model-len 65536
      --gpu-memory-utilization 0.92
      --served-model-name qwen3.6-27b
      --enable-auto-tool-choice
      --tool-call-parser hermes
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]
    shm_size: "8gb"

volumes:
  hf_cache:
```

```bash
# 测试 API
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.6-27b",
    "messages": [
      {"role": "user", "content": "用 3 个要点解释 MoE 和稠密模型的区别。"}
    ],
    "max_tokens": 512,
    "temperature": 0.7
  }'
```

对于单张 **BF16** 上的完整 `--quantization awq` ，请删除`Qwen/Qwen3.6-27B-Instruct`, `--dtype bfloat16`, `--max-model-len 131072`。若要在 2× RTX 4090 上使用张量并行（更长上下文、更大的 KV cache），请添加 `--tensor-parallel-size 2`.

***

## 方案 C — SGLang

当你借助 YaRN 将原生 262K 窗口推得更远时，SGLang 表现出色。传入 `--rope-scaling` 即可扩展到约 1M token。

```bash
docker pull lmsysorg/sglang:latest

# 单 GPU，原生 262K 上下文
python3 -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-27B-Instruct \
  --quantization awq \
  --context-length 262144 \
  --mem-fraction-static 0.90 \
  --served-model-name qwen3.6-27b

# 通过 YaRN 扩展到 1M token（需要更多 VRAM 余量）
python3 -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-27B-Instruct \
  --dtype bfloat16 \
  --context-length 1000000 \
  --json-model-override-args '{"rope_scaling":{"type":"yarn","factor":4.0,"original_max_position_embeddings":262144}}' \
  --mem-fraction-static 0.85
```

{% hint style="warning" %}
**1M 上下文的成本增长很快。** 即使使用 YaRN，BF16 下 1M token 的 KV cache 大约也需要 **40–60GB** ，具体取决于批量大小。如果你确实打算填满这个窗口，请准备 A100 80GB 或 H100。
{% endhint %}

***

## Clore.ai GPU 推荐

| 配置                   | VRAM | 模式          | 预期性能                 | Clore.ai 成本           |
| -------------------- | ---- | ----------- | -------------------- | --------------------- |
| **1× RTX 4090 24GB** | 24GB | Q4 AWQ      | 50–80 tok/s，64K ctx  | **约 0.70–2.50 美元/小时** |
| 1× RTX 5090 32GB     | 32GB | Q8 GPTQ     | 60–90 tok/s，96K ctx  | 约 1.50–3.50 美元/小时     |
| 1× L40S 48GB         | 48GB | BF16        | 35–55 tok/s，131K ctx | 约 1.20–2.80 美元/小时     |
| 1× A100 40GB         | 40GB | BF16        | 40–60 tok/s，96K ctx  | 约 1.00–2.50 美元/小时     |
| 1× A100 80GB         | 80GB | FP16 + 262K | 40–60 tok/s，完整原生上下文  | 约 1.80–3.50 美元/小时     |
| 2× RTX 4090          | 48GB | BF16 TP=2   | 60–80 tok/s，262K ctx | 约 1.50–4.50 美元/小时     |

{% hint style="success" %}
**最具性价比，远远领先：** [1× RTX 4090，起价 0.70 美元/小时](https://clore.ai/rent-4090.html) 通过 Ollama 或 vLLM 运行 Q4 AWQ。你只需一张消费级显卡，就能获得前沿级编程模型，而且每天花费比 Claude Pro 订阅还低。
{% endhint %}

***

## 使用场景

* **单 GPU 生产部署** —— 一台 Clore.ai 4090 上的一个容器，就能拥有一个真正的编程助手
* **编码代理** —— SWE-Bench Verified 77.2%（厂商宣称）使其处于“可用于自主 PR”的级别
* **长上下文 RAG** —— 原生 262K 足以容纳整个代码库或数周的聊天日志
* **1M token 分析** —— 借助 YaRN，可将整本书或数月的 git 日志放入一个提示词中
* **本地 / 断网隔离** —— 随产品附带 Apache 2.0，无 API 依赖
* **边缘微调** —— 27B 稠密模型适合在单卡上进行 LoRA/QLoRA
* **agent-of-agents 中的工作器** —— 作为工作器与更大的 MoE 规划器搭配，例如 [GLM-5.1](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/glm-5-1)

***

## 基准

{% hint style="warning" %}
**厂商宣称——请独立验证。** 以下数字来自阿里巴巴于 2026 年 4 月 21 日发布的公告。独立复现结果（Aider、BigCodeBench、LiveCodeBench 排行榜）仍在不断更新。
{% endhint %}

| 基准项                | Qwen3.6-27B | Qwen3.5-35B | Gemma 3 27B | Llama 4 Scout |
| ------------------ | ----------- | ----------- | ----------- | ------------- |
| SWE-Bench Verified | **77.2%**   | \~71%       | \~58%       | \~54%         |
| HumanEval          | \~93%       | \~92%       | \~90%       | \~88%         |
| LiveCodeBench      | \~68%       | \~65%       | \~55%       | \~52%         |
| MMLU-Pro           | \~78%       | \~76%       | \~74%       | \~72%         |
| MATH               | \~87%       | \~85%       | \~78%       | \~76%         |

最引人注目的数字是 **SWE-Bench Verified 77.2%** —— 这使得一个单 GPU 稠密模型进入了此前仅限于多 GPU MoE 系统的领域。在 LMSYS / Aider 排行榜确认之前，请将其视为厂商宣称。

***

## 故障排查

| 问题                          | 解决方案                                                              |
| --------------------------- | ----------------------------------------------------------------- |
| RTX 4090 上 OOM（Q4）          | 降低 `--max-model-len` 到 32768；在 65K ctx 下，AWQ 已处于 24GB 的边缘         |
| `qwen3.6:27b` 在 Ollama 中未找到 | 更新 Ollama；该标签于 2026 年 4 月下旬上线                                     |
| vLLM 拒绝了 YaRN 配置            | 需要 vLLM ≥ 0.7.x；通过 `--rope-scaling` JSON 传入，而不是单独的参数              |
| 工具调用被静默丢弃                   | 添加 `--enable-auto-tool-choice --tool-call-parser hermes` 到 vLLM 中 |
| 长上下文预填充缓慢                   | 添加 `--enable-chunked-prefill` 并减小批量大小                             |
| 262K 时 KV cache OOM         | 降到 Q8 或切换到 L40S 48GB / A100 80GB                                  |
| 接近 1M ctx 时质量较差             | YaRN 虽然扩展了位置，但在约 600K 之后质量会下降；将关键内容放在末尾附近                         |

***

## 下一步

* **前代：** [Qwen3.5](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/qwen35) —— Qwen3.6-27B 是其稠密后继；同一家族，编码更强，原生 ctx 更长
* **多模态同系：** [Qwen3.5-Omni](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/qwen35-omni) —— 若你需要的不只是文本，还有文本 + 音频 + 图像 + 视频
* **类似的稠密 27B 级别：** [Gemma 3](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/gemma3) —— 谷歌的 27B 稠密竞争者，可作为良好的基线对比
* **MoE 替代方案：** [Llama 4 Scout](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/llama4) —— 如果你想比较架构，可选择单 GPU MoE
* **前沿 MoE 升级：** [GLM-5.1](https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/glm-5-1) —— 当 27B 稠密不够用，而且你有多 GPU 预算时

### 链接

* [HuggingFace 上的 Qwen3.6-27B](https://huggingface.co/Qwen/Qwen3.6-27B)
* [Qwen GitHub](https://github.com/QwenLM/Qwen)
* [Qwen 博客](https://qwenlm.github.io/)
* [vLLM 文档](https://docs.vllm.ai)
* [SGLang 仓库](https://github.com/sgl-project/sglang)
* [Ollama 库](https://ollama.com/library/qwen3.6)
* **租用 GPU：** [RTX 4090 起价 0.70 美元/小时](https://clore.ai/rent-4090.html) · [RTX 5090 32GB](https://clore.ai/rent-5090.html) · [市场](https://clore.ai/marketplace)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-zh/yu-yan-mo-xing/qwen36-27b.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
