# Qwen3.5

Qwen3.5, выпущенная 16 февраля 2026 года, является последней флагманской моделью Alibaba и одним из самых обсуждаемых опенсорс-релизов 2026 года. Эта **флагманская MoE модель на 397B** опередила Claude 4.5 Opus в бенчмарке по математике HMMT, тогда как более компактная **плотная модель на 35B** умещается на одном RTX 4090. Все модели из коробки поддерживают агентные возможности (использование инструментов, вызовы функций, автономное выполнение задач) и мультимодальное понимание.

## Ключевые особенности

* **Три размера**: 9B (dense), 35B (dense), 397B (MoE) — вариант для любой GPU
* **Опережает Claude 4.5 Opus** в бенчмарке HMMT по математике
* **Нативно мультимодальна**: Понимание текста и изображений
* **Агентные возможности**: Использование инструментов, вызов функций, автономные рабочие потоки
* **Окно контекста 128K**: Обработка больших документов и кодовых баз
* **Лицензия Apache 2.0**: Полное коммерческое использование, без ограничений

## Варианты моделей

| Модель       | Параметры | Тип     | VRAM (Q4) | VRAM (FP16) | Сильная сторона       |
| ------------ | --------- | ------- | --------- | ----------- | --------------------- |
| Qwen3.5-9B   | 9B        | Плотная | 6GB       | 18GB        | Быстрая, эффективная  |
| Qwen3.5-35B  | 35B       | Плотная | 22GB      | 70GB        | Лучшее для одного GPU |
| Qwen3.5-397B | 397B      | MoE     | \~100GB   | 400GB+      | Класс фронтира        |

## Требования

| Компонент | 9B (Q4)       | 35B (Q4)      | 397B (мульти-GPU) |
| --------- | ------------- | ------------- | ----------------- |
| GPU       | RTX 3080 10GB | RTX 4090 24GB | 4× H100 80GB      |
| VRAM      | 8GB           | 22GB          | 320GB+            |
| ОЗУ       | 16GB          | 32GB          | 128GB             |
| Диск      | 15GB          | 30GB          | 250GB             |

**Рекомендуемый GPU на Clore.ai**: RTX 4090 24GB (\~$0.5–2/день) для 35B — лучшее соотношение качества и цены

## Быстрый старт с Ollama

```bash
# Установите Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 9B — работает на любом устройстве (8GB VRAM)
ollama run qwen3.5:9b

# 35B в квантизированном виде — требует RTX 4090 (24GB)
ollama run qwen3.5:35b

# В режиме API-сервера
ollama serve &
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.5:35b",
    "messages": [{"role": "user", "content": "Решите это: если f(x) = x^3 - 3x + 1, найдите все действительные корни"}]
  }'
```

## Настройка vLLM (Production)

```bash
pip install vllm

# 35B на одном GPU
vllm serve Qwen/Qwen3.5-35B-Instruct \
  --max-model-len 32768 \
  --gpu-memory-utilization 0.90

# 9B с длинным контекстом
vllm serve Qwen/Qwen3.5-9B-Instruct \
  --max-model-len 65536

# 397B на кластере с несколькими GPU
vllm serve Qwen/Qwen3.5-397B-A45B-Instruct \
  --tensor-parallel-size 8 \
  --max-model-len 32768
```

## HuggingFace Transformers

```python
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3.5-35B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    load_in_4bit=True  # Помещается 35B на 24GB
)

messages = [
    {"role": "system", "content": "Вы — полезный репетитор по математике."},
    {"role": "user", "content": "Докажите, что квадратный корень из 2 иррационален."}
]

input_ids = tokenizer.apply_chat_template(messages, return_tensors="pt").to(model.device)
output = model.generate(input_ids, max_new_tokens=2048, temperature=0.7, do_sample=True)
print(tokenizer.decode(output[0][input_ids.shape[-1]:], skip_special_tokens=True))
```

## Пример агентного поведения / использования инструментов

```python
import json
from openai import OpenAI

client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")

tools = [{
    "type": "function",
    "function": {
        "name": "get_gpu_price",
        "description": "Получить текущую цену аренды для модели GPU на Clore.ai",
        "parameters": {
            "type": "object",
            "properties": {
                "gpu_model": {"type": "string", "description": "Название модели GPU, например RTX 4090"}
            },
            "required": ["gpu_model"]
        }
    }
}]

response = client.chat.completions.create(
    model="qwen3.5:35b",
    messages=[{"role": "user", "content": "Какая самая дешевая GPU, которую я могу арендовать для запуска модели 7B?"}],
    tools=tools,
    tool_choice="auto"
)

# Qwen3.5 вызовет get_gpu_price с соответствующими параметрами
print(response.choices[0].message)
```

## Почему Qwen3.5 на Clore.ai?

Модель 35B, по сути, является **лучшей моделью, которую вы можете запустить на одном RTX 4090**:

* Опережает Llama 4 Scout в математике и рассуждениях
* Опережает Gemma 3 27B в агентных задачах
* Использование инструментов / вызовы функций работают из коробки
* Apache 2.0 = никаких лицензионных проблем

При цене $0.5–2/день за RTX 4090 вы получаете ИИ уровня фронтира по цене чашки кофе.

## Советы для пользователей Clore.ai

* **35B — золотая середина**: Умещается на RTX 4090 Q4, превосходит большинство моделей 70B
* **9B для экономии**: Даже RTX 3060 ($0.15/день) хорошо справляется с моделью 9B
* **Используйте Ollama для быстрого старта**: Одна команда для сервинга; включено совместимое с OpenAI API
* **Агентные рабочие потоки**: Qwen3.5 превосходна в использовании инструментов — комбинируйте с вызовами функций для автоматизации
* **Свежее моделирование = меньше кеша**: Первое скачивание занимает время (\~20GB для 35B). Предварительно загрузите перед началом работы

## Устранение неполадок

| Проблема                        | Решение                                                                           |
| ------------------------------- | --------------------------------------------------------------------------------- |
| 35B OOM на 24GB                 | Используйте `load_in_4bit=True` или уменьшите `--max-model-len`                   |
| Модель Ollama не найдена        | Обновите Ollama: `curl -fsSL https://ollama.com/install.sh \| sh`                 |
| Медленно при первом запросе     | Загрузка модели занимает 30–60 с; последующие запросы быстрые                     |
| Вызовы инструментов не работают | Убедитесь, что вы передаете `tools` параметр; используйте только instruct-вариант |

## Дополнительное чтение

* [Блог Qwen](https://qwenlm.github.io/)
* [Модели на HuggingFace](https://huggingface.co/Qwen)
* [Библиотека Ollama](https://ollama.com/library/qwen3.5)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/qwen35.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.