# Qwen3.5

Qwen3.5, publié le 16 février 2026, est le dernier modèle phare d'Alibaba et l'une des sorties open-source les plus en vue de 2026. Le **modèle phare MoE de 397 milliards** a battu Claude 4.5 Opus sur le benchmark mathématique HMMT, tandis que le plus petit **modèle dense de 35 milliards** tient sur un seul RTX 4090. Tous les modèles incluent dès le départ des capacités agentiques (utilisation d'outils, appel de fonctions, exécution autonome de tâches) et une compréhension multimodale.

## Principales caractéristiques

* **Trois tailles**: 9B (dense), 35B (dense), 397B (MoE) — quelque chose pour chaque GPU
* **A battu Claude 4.5 Opus** sur le benchmark mathématique HMMT
* **Nativement multimodal**: Compréhension texte + image
* **Capacités agentiques**: Utilisation d'outils, appel de fonctions, flux de travail autonomes
* **Fenêtre de contexte 128K**: Gérer de grands documents et des bases de code
* **Licence Apache 2.0**: Usage commercial complet, sans restrictions

## Variantes du modèle

| Modèle       | Paramètres | Type  | VRAM (Q4) | VRAM (FP16) | Atout                     |
| ------------ | ---------- | ----- | --------- | ----------- | ------------------------- |
| Qwen3.5-9B   | 9B         | Dense | 6Go       | 18Go        | Rapide, efficace          |
| Qwen3.5-35B  | 35B        | Dense | 22Go      | 70Go        | Meilleur pour un seul GPU |
| Qwen3.5-397B | 397B       | MoE   | \~100Go   | 400Go+      | De classe frontier        |

## Exigences

| Composant | 9B (Q4)       | 35B (Q4)      | 397B (multi-GPU) |
| --------- | ------------- | ------------- | ---------------- |
| GPU       | RTX 3080 10Go | RTX 4090 24Go | 4× H100 80Go     |
| VRAM      | 8Go           | 22Go          | 320Go+           |
| RAM       | 16Go          | 32Go          | 128Go            |
| Disque    | 15Go          | 30Go          | 250Go            |

**GPU recommandé par Clore.ai**: RTX 4090 24Go (\~0,5–2 $/jour) pour le 35B — meilleur rapport qualité/prix

## Démarrage rapide avec Ollama

```bash
# Installer Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 9B — fonctionne sur n'importe quoi (8Go de VRAM)
ollama run qwen3.5:9b

# 35B quantifié — nécessite RTX 4090 (24Go)
ollama run qwen3.5:35b

# En tant que serveur API
ollama serve &
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.5:35b",
    "messages": [{"role": "user", "content": "Solve this: if f(x) = x^3 - 3x + 1, find all real roots"}]
  }'
```

## Configuration vLLM (Production)

```bash
pip install vllm

# 35B sur un seul GPU
vllm serve Qwen/Qwen3.5-35B-Instruct \
  --max-model-len 32768 \
  --gpu-memory-utilization 0.90

# 9B avec contexte long
vllm serve Qwen/Qwen3.5-9B-Instruct \
  --max-model-len 65536

# 397B sur un cluster multi-GPU
vllm serve Qwen/Qwen3.5-397B-A45B-Instruct \
  --tensor-parallel-size 8 \
  --max-model-len 32768
```

## HuggingFace Transformers

```python
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3.5-35B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    load_in_4bit=True  # Permet de faire tenir le 35B sur 24Go
)

messages = [
    {"role": "system", "content": "You are a helpful math tutor."},
    {"role": "user", "content": "Prove that the square root of 2 is irrational."}
]

input_ids = tokenizer.apply_chat_template(messages, return_tensors="pt").to(model.device)
output = model.generate(input_ids, max_new_tokens=2048, temperature=0.7, do_sample=True)
print(tokenizer.decode(output[0][input_ids.shape[-1]:], skip_special_tokens=True))
```

## Exemple d'utilisation agentique / d'outils

```python
import json
from openai import OpenAI

client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")

tools = [{
    "type": "function",
    "function": {
        "name": "get_gpu_price",
        "description": "Get current rental price for a GPU model on Clore.ai",
        "parameters": {
            "type": "object",
            "properties": {
                "gpu_model": {"type": "string", "description": "GPU model name, e.g. RTX 4090"}
            },
            "required": ["gpu_model"]
        }
    }
}]

response = client.chat.completions.create(
    model="qwen3.5:35b",
    messages=[{"role": "user", "content": "What's the cheapest GPU I can rent for running a 7B model?"}],
    tools=tools,
    tool_choice="auto"
)

# Qwen3.5 will call get_gpu_price with appropriate parameters
print(response.choices[0].message)
```

## Pourquoi Qwen3.5 sur Clore.ai ?

Le modèle 35B est sans doute le **meilleur modèle que vous pouvez exécuter sur un seul RTX 4090**:

* Batte Llama 4 Scout en mathématiques et raisonnement
* Batte Gemma 3 27B sur les tâches agentiques
* L'utilisation d'outils / l'appel de fonctions fonctionne dès la sortie de la boîte
* Apache 2.0 = pas de casse-tête de licence

À 0,5–2 $/jour pour un RTX 4090, vous obtenez une IA de classe frontier pour le prix d'un café.

## Conseils pour les utilisateurs de Clore.ai

* **35B est le point optimal**: Tient sur RTX 4090 Q4, surpasse la plupart des modèles 70B
* **9B pour les budgets serrés**: Même un RTX 3060 (0,15 $/jour) exécute bien le modèle 9B
* **Utilisez Ollama pour un démarrage rapide**: Une commande pour servir ; API compatible OpenAI incluse
* **Flux de travail agentiques**: Qwen3.5 excelle dans l'utilisation d'outils — combinez avec l'appel de fonctions pour l'automatisation
* **Modèle récent = moins de cache**: Le premier téléchargement prend du temps (\~20Go pour le 35B). Pré-téléchargez avant que votre charge de travail ne commence

## Dépannage

| Problème                         | Solution                                                                       |
| -------------------------------- | ------------------------------------------------------------------------------ |
| 35B OOM sur 24Go                 | Utilisez `load_in_4bit=True` ou réduisez `--max-model-len`                     |
| Modèle Ollama introuvable        | Mettre à jour Ollama : `curl -fsSL https://ollama.com/install.sh \| sh`        |
| Lent à la première requête       | Le chargement du modèle prend 30–60s ; les requêtes suivantes sont rapides     |
| Appels d'outils non fonctionnels | Assurez-vous de passer `tools` paramètre ; n'utilisez que la variante instruct |

## Lectures complémentaires

* [Blog Qwen](https://qwenlm.github.io/)
* [Modèles HuggingFace](https://huggingface.co/Qwen)
* [Bibliothèque Ollama](https://ollama.com/library/qwen3.5)
