# Qwen3.6-27B (Dense, Single-GPU)

{% hint style="info" %}
**Статус (апрель 2026):** Qwen3.6-27B был выпущен Alibaba **21 апреля 2026 года** под **Apache 2.0** лицензией. Веса доступны по адресу [huggingface.co/Qwen/Qwen3.6-27B](https://huggingface.co/Qwen/Qwen3.6-27B). Это **плотная** 27B-модель — не MoE — с **нативным контекстом 262K токенов** который расширяется до **1M токенов с YaRN**, а также с поддержкой с первого дня в vLLM, SGLang и Ollama.
{% endhint %}

Гиганты MoE 2026 года — DeepSeek V4, GLM-5.1, MiMo-V2.5-Pro — впечатляют на бенчмарках, но в реальной практике обременительны: сотни ГБ весов, стойки с несколькими GPU, хрупкие ядра маршрутизации экспертов и счета за инференс, от которых финансовые команды вздрагивают. Qwen3.6-27B идет в противоположном направлении. Это **плотная**, каждый параметр активируется на каждом токене, потребление VRAM предсказуемо до гигабайта, и нет сюрпризов с маршрутизацией экспертов, когда вы выходите за пределы контекста 8K.

Для большинства команд вопрос не в том, «можем ли мы обслуживать MoE на 744B» — а в том, «можем ли мы поставить в кластер одну хорошую карту и обслуживать на ней кодирующего помощника уровня frontier?» Qwen3.6-27B создан именно для этого. Q4 помещается на одну **RTX 4090 24GB**, Q8 помещается на одну **RTX 5090 32GB**, BF16 помещается на одну **L40S 48GB** или **A100 40GB**, а Alibaba публикует **77,2% на SWE-Bench Verified** (заявлено поставщиком). Одна карта, один контейнер, одна модель.

### Ключевые характеристики

| Параметр             | Значение                           |
| -------------------- | ---------------------------------- |
| Параметры            | 27B (плотная)                      |
| Архитектура          | Плотный transformer только-декодер |
| Нативный контекст    | 262 144 токена                     |
| Расширенный контекст | 1 000 000 токенов (YaRN)           |
| Лицензия             | Apache 2.0                         |
| Дата выпуска         | 21 апреля 2026 года                |
| Организация          | Alibaba (команда Qwen)             |
| Основные инструменты | vLLM, SGLang, Ollama, llama.cpp    |

### Почему Qwen3.6-27B?

* **Экономика одной GPU** — Q4 на RTX 4090 от **$0,70–2,50/ч** на Clore.ai; не нужно отлаживать оркестрацию tensor-parallel
* **Плотная, не MoE** — фиксированный VRAM, без горячих точек экспертов, без скачков задержки на некоторых запросах
* **Apache 2.0** — полностью коммерческая, поддающаяся дообучению, распространяемая без ограничений на использование
* **262K нативного контекста, 1M с YaRN** — целые кодовые базы, полные книги, часы транскриптов за один проход
* **Поддержка vLLM / SGLang / Ollama с первого дня** — выбирайте свой стек обслуживания; Qwen выпустил конфигурации для всех трех сразу при релизе
* **77,2% SWE-Bench Verified** (заявлено поставщиком) — конкурентно с гораздо более крупными MoE-моделями на реальных задачах кодинга

***

## Требования

{% hint style="success" %}
**Суть модели в том, что она прощает ошибки.** Одной RTX 4090 из маркетплейса Clore.ai достаточно, чтобы запускать Qwen3.6-27B с качеством уровня production (Q4) или на скоростях «достаточно хорошо для большинства случаев». Никаких проблем с несколькими GPU.
{% endhint %}

| Компонент         | Q4 (GGUF / AWQ)  | Q8 (GGUF / GPTQ) | BF16                          | Полный FP16                |
| ----------------- | ---------------- | ---------------- | ----------------------------- | -------------------------- |
| GPU               | 1× RTX 4090 24GB | 1× RTX 5090 32GB | 1× L40S 48GB или 1× A100 40GB | 1× A100 80GB               |
| Используется VRAM | \~16–18GB        | \~28–30GB        | \~54GB                        | \~54GB + запас для KV-кэша |
| RAM               | 32GB             | 32GB             | 64GB                          | 96GB                       |
| Диск              | 20GB NVMe        | 32GB NVMe        | 60GB NVMe                     | 60GB NVMe                  |
| CUDA              | 12.1+            | 12.4+            | 12.1+                         | 12.1+                      |

**Выбор Clore.ai:** Для 90% команд достаточно одной **RTX 4090 24GB** с запущенной Q4 (AWQ или GGUF) — это правильный ответ. Вы получаете кодинг уровня frontier по цене пары чашек кофе в день. Переходите на RTX 5090 32GB, если хотите Q8 для немного лучшего качества, или на L40S / A100 40GB для полного production-инференса в BF16.

***

## Вариант A — Ollama (квантованный, самый простой)

Ollama — это самый быстрый путь от «у меня есть GPU на Clore.ai» до «у меня есть чат-эндпоинт».

```bash
# Скачайте Qwen3.6-27B (по умолчанию Q4_K_M, загрузка ~17GB)
ollama pull qwen3.6:27b

# Запуск в интерактивном режиме
ollama run qwen3.6:27b

# Или откройте API, совместимый с OpenAI
ollama serve &

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.6:27b",
    "messages": [
      {"role": "system", "content": "Вы — старший Go-инженер."},
      {"role": "user", "content": "Рефакторьте этот обработчик так, чтобы он правильно использовал context.Context, и добавьте повторные попытки с экспоненциальной задержкой."}
    ],
    "temperature": 0.6
  }'
```

{% hint style="info" %}
По умолчанию тег `qwen3.6:27b` в Ollama соответствует Q4\_K\_M. Используйте `qwen3.6:27b-q8_0` для Q8, если у вас есть RTX 5090, или `qwen3.6:27b-fp16` для полной точности (нужна A100 80GB).
{% endhint %}

***

## Вариант B — vLLM (production)

vLLM — рекомендуемый production-сервер. Приведенная ниже конфигурация для одной GPU рассчитана на RTX 4090 с квантованием AWQ. Раздел для нескольких GPU добавлен для полноты — но для плотной модели 27B он почти никогда не нужен.

```yaml
# docker-compose.yml — одна RTX 4090, Q4 AWQ
version: "3.8"
services:
  vllm:
    image: vllm/vllm-openai:latest
    ports:
      - "8000:8000"
    volumes:
      - hf_cache:/root/.cache/huggingface
    command: >
      --model Qwen/Qwen3.6-27B-Instruct-AWQ
      --quantization awq
      --max-model-len 65536
      --gpu-memory-utilization 0.92
      --served-model-name qwen3.6-27b
      --enable-auto-tool-choice
      --tool-call-parser hermes
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]
    shm_size: "8gb"

volumes:
  hf_cache:
```

```bash
# Проверка API
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.6-27b",
    "messages": [
      {"role": "user", "content": "Объясните разницу между MoE и плотными моделями в 3 пунктах."}
    ],
    "max_tokens": 512,
    "temperature": 0.7
  }'
```

Для полного **BF16** на одной L40S 48GB или A100 40GB, уберите `--quantization awq` и укажите базовый чекпойнт (`Qwen/Qwen3.6-27B-Instruct`, `--dtype bfloat16`, `--max-model-len 131072`). Для 2× RTX 4090 с tensor parallelism (более длинный контекст, больший KV-кэш) добавьте `--tensor-parallel-size 2`.

***

## Вариант C — SGLang

SGLang особенно хорош, когда вы выходите за пределы нативного окна 262K с помощью YaRN. Передайте `--rope-scaling` чтобы расширить до \~1M токенов.

```bash
docker pull lmsysorg/sglang:latest

# Одна GPU, нативный контекст 262K
python3 -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-27B-Instruct \
  --quantization awq \
  --context-length 262144 \
  --mem-fraction-static 0.90 \
  --served-model-name qwen3.6-27b

# Расширение YaRN до 1M токенов (нужен больший запас VRAM)
python3 -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-27B-Instruct \
  --dtype bfloat16 \
  --context-length 1000000 \
  --json-model-override-args '{"rope_scaling":{"type":"yarn","factor":4.0,"original_max_position_embeddings":262144}}' \
  --mem-fraction-static 0.85
```

{% hint style="warning" %}
**Затраты на контекст 1M растут быстро.** Даже с YaRN KV-кэш для 1M токенов в BF16 составляет примерно **40–60GB** в зависимости от размера батча. Планируйте A100 80GB или H100, если вы действительно собираетесь заполнять окно.
{% endhint %}

***

## Рекомендации по GPU на Clore.ai

| Конфигурация         | VRAM | Режим       | Ожидаемая производительность          | Стоимость на Clore.ai |
| -------------------- | ---- | ----------- | ------------------------------------- | --------------------- |
| **1× RTX 4090 24GB** | 24GB | Q4 AWQ      | 50–80 ток/с, контекст 64K             | **\~$0,70–2,50/ч**    |
| 1× RTX 5090 32GB     | 32GB | Q8 GPTQ     | 60–90 ток/с, контекст 96K             | \~$1,50–3,50/ч        |
| 1× L40S 48GB         | 48GB | BF16        | 35–55 ток/с, контекст 131K            | \~$1,20–2,80/ч        |
| 1× A100 40GB         | 40GB | BF16        | 40–60 ток/с, контекст 96K             | \~$1,00–2,50/ч        |
| 1× A100 80GB         | 80GB | FP16 + 262K | 40–60 ток/с, полный нативный контекст | \~$1,80–3,50/ч        |
| 2× RTX 4090          | 48GB | BF16 TP=2   | 60–80 ток/с, контекст 262K            | \~$1,50–4,50/ч        |

{% hint style="success" %}
**Лучшее соотношение цены и качества, без конкурентов:** [1× RTX 4090 от $0,70/ч](https://clore.ai/rent-4090.html) с запуском Q4 AWQ через Ollama или vLLM. Вы получаете модель кодинга уровня frontier на одной потребительской карте дешевле, чем стоит подписка Claude Pro за день.
{% endhint %}

***

## Сценарии использования

* **Production-развертывания на одной GPU** — один контейнер на одной Clore.ai 4090, и у вас есть настоящий кодирующий помощник
* **Агенты для кодинга** — 77,2% SWE-Bench Verified (заявлено поставщиком) ставит её в категорию «полезно для автономных PR»
* **RAG с длинным контекстом** — 262K нативного контекста достаточно для целых кодовых баз или недель логов чата
* **Анализ на 1M токенов** — с YaRN можно загрузить в один запрос целую книгу или git-лог за несколько месяцев
* **On-prem / air-gapped** — Apache 2.0 поставляется вместе с продуктом, без зависимости от API
* **Донастройка на периферии** — 27B плотная модель дружелюбна к LoRA/QLoRA на одной карте
* **Рабочий в agent-of-agents** — используйте как worker вместе с более крупным MoE-планировщиком, например [GLM-5.1](/guides/guides_v2-ru/yazykovye-modeli/glm-5-1.md)

***

## Бенчмарки

{% hint style="warning" %}
**Заявлено поставщиком — проверяйте независимо.** Ниже приведены цифры из релизного поста Alibaba от 21 апреля 2026 года. Независимые воспроизведения (Aider, BigCodeBench, рейтинги LiveCodeBench) продолжают появляться.
{% endhint %}

| Бенчмарк           | Qwen3.6-27B | Qwen3.5-35B | Gemma 3 27B | Llama 4 Scout |
| ------------------ | ----------- | ----------- | ----------- | ------------- |
| SWE-Bench Verified | **77.2%**   | \~71%       | \~58%       | \~54%         |
| HumanEval          | \~93%       | \~92%       | \~90%       | \~88%         |
| LiveCodeBench      | \~68%       | \~65%       | \~55%       | \~52%         |
| MMLU-Pro           | \~78%       | \~76%       | \~74%       | \~72%         |
| MATH               | \~87%       | \~85%       | \~78%       | \~76%         |

Главный показатель — это **SWE-Bench Verified 77,2%** — это выводит плотную модель на одной GPU на территорию, ранее доступную только многогPU MoE-системам. Считайте это заявлением поставщика, пока LMSYS / таблицы Aider это не подтвердят.

***

## Устранение неполадок

| Проблема                               | Решение                                                                                                      |
| -------------------------------------- | ------------------------------------------------------------------------------------------------------------ |
| OOM на RTX 4090 (Q4)                   | Уменьшите `--max-model-len` до 32768; AWQ при контексте 65K находится прямо на границе 24GB                  |
| `qwen3.6:27b` не найдено в Ollama      | Обновите Ollama; тег появился в конце апреля 2026 года                                                       |
| Конфигурация YaRN отклонена vLLM       | Требуется vLLM ≥ 0.7.x; передавайте через `--rope-scaling` JSON, а не отдельные флаги                        |
| Вызовы инструментов тихо отбрасываются | Добавьте `--enable-auto-tool-choice --tool-call-parser hermes` в vLLM                                        |
| Медленный prefill на длинном контексте | Добавьте `--enable-chunked-prefill` и уменьшите размер батча                                                 |
| OOM KV-кэша на 262K                    | Понизьте до Q8 или перейдите на L40S 48GB / A100 80GB                                                        |
| Плохое качество около 1M контекста     | YaRN расширяет позиции, но качество ухудшается после \~600K; держите критически важный контент ближе к концу |

***

## Следующие шаги

* **Предшественник:** [Qwen3.5](/guides/guides_v2-ru/yazykovye-modeli/qwen35.md) — Qwen3.6-27B является плотным преемником; та же семейство, более сильный кодинг, более длинный нативный контекст
* **Мультимодальный собрат:** [Qwen3.5-Omni](/guides/guides_v2-ru/yazykovye-modeli/qwen35-omni.md) — текст + аудио + изображение + видео, если вам нужно больше, чем текст
* **Похожий класс dense-27B:** [Gemma 3](/guides/guides_v2-ru/yazykovye-modeli/gemma3.md) — 27B плотный конкурент Google, хорошая базовая точка для сравнения
* **MoE-альтернатива:** [Llama 4 Scout](/guides/guides_v2-ru/yazykovye-modeli/llama4.md) — MoE на одной GPU, если хотите сравнить архитектуры
* **Переход на frontier MoE:** [GLM-5.1](/guides/guides_v2-ru/yazykovye-modeli/glm-5-1.md) — когда 27B плотной модели уже недостаточно и у вас есть бюджет на несколько GPU

### Ссылки

* [Qwen3.6-27B на HuggingFace](https://huggingface.co/Qwen/Qwen3.6-27B)
* [Qwen GitHub](https://github.com/QwenLM/Qwen)
* [Блог Qwen](https://qwenlm.github.io/)
* [Документация vLLM](https://docs.vllm.ai)
* [Репозиторий SGLang](https://github.com/sgl-project/sglang)
* [Библиотека Ollama](https://ollama.com/library/qwen3.6)
* **Арендовать GPU:** [RTX 4090 от $0,70/ч](https://clore.ai/rent-4090.html) · [RTX 5090 32GB](https://clore.ai/rent-5090.html) · [Маркетплейс](https://clore.ai/marketplace)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/qwen36-27b.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
