# Qwen3.5

Qwen3.5, выпущенная 16 февраля 2026 года, является последней флагманской моделью Alibaba и одним из самых обсуждаемых опенсорс-релизов 2026 года. Эта **флагманская MoE модель на 397B** опередила Claude 4.5 Opus в бенчмарке по математике HMMT, тогда как более компактная **плотная модель на 35B** умещается на одном RTX 4090. Все модели из коробки поддерживают агентные возможности (использование инструментов, вызовы функций, автономное выполнение задач) и мультимодальное понимание.

## Ключевые особенности

* **Три размера**: 9B (dense), 35B (dense), 397B (MoE) — вариант для любой GPU
* **Опережает Claude 4.5 Opus** в бенчмарке HMMT по математике
* **Нативно мультимодальна**: Понимание текста и изображений
* **Агентные возможности**: Использование инструментов, вызов функций, автономные рабочие потоки
* **Окно контекста 128K**: Обработка больших документов и кодовых баз
* **Лицензия Apache 2.0**: Полное коммерческое использование, без ограничений

## Варианты моделей

| Модель       | Параметры | Тип     | VRAM (Q4) | VRAM (FP16) | Сильная сторона       |
| ------------ | --------- | ------- | --------- | ----------- | --------------------- |
| Qwen3.5-9B   | 9B        | Плотная | 6GB       | 18GB        | Быстрая, эффективная  |
| Qwen3.5-35B  | 35B       | Плотная | 22GB      | 70GB        | Лучшее для одного GPU |
| Qwen3.5-397B | 397B      | MoE     | \~100GB   | 400GB+      | Класс фронтира        |

## Требования

| Компонент | 9B (Q4)       | 35B (Q4)      | 397B (мульти-GPU) |
| --------- | ------------- | ------------- | ----------------- |
| GPU       | RTX 3080 10GB | RTX 4090 24GB | 4× H100 80GB      |
| VRAM      | 8GB           | 22GB          | 320GB+            |
| ОЗУ       | 16GB          | 32GB          | 128GB             |
| Диск      | 15GB          | 30GB          | 250GB             |

**Рекомендуемый GPU на Clore.ai**: RTX 4090 24GB (\~$0.5–2/день) для 35B — лучшее соотношение качества и цены

## Быстрый старт с Ollama

```bash
# Установите Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 9B — работает на любом устройстве (8GB VRAM)
ollama run qwen3.5:9b

# 35B в квантизированном виде — требует RTX 4090 (24GB)
ollama run qwen3.5:35b

# В режиме API-сервера
ollama serve &
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.5:35b",
    "messages": [{"role": "user", "content": "Решите это: если f(x) = x^3 - 3x + 1, найдите все действительные корни"}]
  }'
```

## Настройка vLLM (Production)

```bash
pip install vllm

# 35B на одном GPU
vllm serve Qwen/Qwen3.5-35B-Instruct \
  --max-model-len 32768 \
  --gpu-memory-utilization 0.90

# 9B с длинным контекстом
vllm serve Qwen/Qwen3.5-9B-Instruct \
  --max-model-len 65536

# 397B на кластере с несколькими GPU
vllm serve Qwen/Qwen3.5-397B-A45B-Instruct \
  --tensor-parallel-size 8 \
  --max-model-len 32768
```

## HuggingFace Transformers

```python
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3.5-35B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    load_in_4bit=True  # Помещается 35B на 24GB
)

messages = [
    {"role": "system", "content": "Вы — полезный репетитор по математике."},
    {"role": "user", "content": "Докажите, что квадратный корень из 2 иррационален."}
]

input_ids = tokenizer.apply_chat_template(messages, return_tensors="pt").to(model.device)
output = model.generate(input_ids, max_new_tokens=2048, temperature=0.7, do_sample=True)
print(tokenizer.decode(output[0][input_ids.shape[-1]:], skip_special_tokens=True))
```

## Пример агентного поведения / использования инструментов

```python
import json
from openai import OpenAI

client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")

tools = [{
    "type": "function",
    "function": {
        "name": "get_gpu_price",
        "description": "Получить текущую цену аренды для модели GPU на Clore.ai",
        "parameters": {
            "type": "object",
            "properties": {
                "gpu_model": {"type": "string", "description": "Название модели GPU, например RTX 4090"}
            },
            "required": ["gpu_model"]
        }
    }
}]

response = client.chat.completions.create(
    model="qwen3.5:35b",
    messages=[{"role": "user", "content": "Какая самая дешевая GPU, которую я могу арендовать для запуска модели 7B?"}],
    tools=tools,
    tool_choice="auto"
)

# Qwen3.5 вызовет get_gpu_price с соответствующими параметрами
print(response.choices[0].message)
```

## Почему Qwen3.5 на Clore.ai?

Модель 35B, по сути, является **лучшей моделью, которую вы можете запустить на одном RTX 4090**:

* Опережает Llama 4 Scout в математике и рассуждениях
* Опережает Gemma 3 27B в агентных задачах
* Использование инструментов / вызовы функций работают из коробки
* Apache 2.0 = никаких лицензионных проблем

При цене $0.5–2/день за RTX 4090 вы получаете ИИ уровня фронтира по цене чашки кофе.

## Советы для пользователей Clore.ai

* **35B — золотая середина**: Умещается на RTX 4090 Q4, превосходит большинство моделей 70B
* **9B для экономии**: Даже RTX 3060 ($0.15/день) хорошо справляется с моделью 9B
* **Используйте Ollama для быстрого старта**: Одна команда для сервинга; включено совместимое с OpenAI API
* **Агентные рабочие потоки**: Qwen3.5 превосходна в использовании инструментов — комбинируйте с вызовами функций для автоматизации
* **Свежее моделирование = меньше кеша**: Первое скачивание занимает время (\~20GB для 35B). Предварительно загрузите перед началом работы

## Устранение неполадок

| Проблема                        | Решение                                                                           |
| ------------------------------- | --------------------------------------------------------------------------------- |
| 35B OOM на 24GB                 | Используйте `load_in_4bit=True` или уменьшите `--max-model-len`                   |
| Модель Ollama не найдена        | Обновите Ollama: `curl -fsSL https://ollama.com/install.sh \| sh`                 |
| Медленно при первом запросе     | Загрузка модели занимает 30–60 с; последующие запросы быстрые                     |
| Вызовы инструментов не работают | Убедитесь, что вы передаете `tools` параметр; используйте только instruct-вариант |

## Дополнительное чтение

* [Блог Qwen](https://qwenlm.github.io/)
* [Модели на HuggingFace](https://huggingface.co/Qwen)
* [Библиотека Ollama](https://ollama.com/library/qwen3.5)
