> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/qwen35.md).

# Qwen3.5

Qwen3.5, publié le 16 février 2026, est le dernier modèle phare d'Alibaba et l'une des sorties open-source les plus en vue de 2026. Le **modèle phare MoE de 397 milliards** a battu Claude 4.5 Opus sur le benchmark mathématique HMMT, tandis que le plus petit **modèle dense de 35 milliards** tient sur un seul RTX 4090. Tous les modèles incluent dès le départ des capacités agentiques (utilisation d'outils, appel de fonctions, exécution autonome de tâches) et une compréhension multimodale.

## Principales caractéristiques

* **Trois tailles**: 9B (dense), 35B (dense), 397B (MoE) — quelque chose pour chaque GPU
* **A battu Claude 4.5 Opus** sur le benchmark mathématique HMMT
* **Nativement multimodal**: Compréhension texte + image
* **Capacités agentiques**: Utilisation d'outils, appel de fonctions, flux de travail autonomes
* **Fenêtre de contexte 128K**: Gérer de grands documents et des bases de code
* **Licence Apache 2.0**: Usage commercial complet, sans restrictions

## Variantes du modèle

| Modèle       | Paramètres | Type  | VRAM (Q4) | VRAM (FP16) | Atout                     |
| ------------ | ---------- | ----- | --------- | ----------- | ------------------------- |
| Qwen3.5-9B   | 9B         | Dense | 6Go       | 18Go        | Rapide, efficace          |
| Qwen3.5-35B  | 35B        | Dense | 22Go      | 70Go        | Meilleur pour un seul GPU |
| Qwen3.5-397B | 397B       | MoE   | \~100Go   | 400Go+      | De classe frontier        |

## Exigences

| Composant | 9B (Q4)       | 35B (Q4)      | 397B (multi-GPU) |
| --------- | ------------- | ------------- | ---------------- |
| GPU       | RTX 3080 10Go | RTX 4090 24Go | 4× H100 80Go     |
| VRAM      | 8Go           | 22Go          | 320Go+           |
| RAM       | 16Go          | 32Go          | 128Go            |
| Disque    | 15Go          | 30Go          | 250Go            |

**GPU recommandé par Clore.ai**: RTX 4090 24Go (\~0,5–2 $/jour) pour le 35B — meilleur rapport qualité/prix

## Démarrage rapide avec Ollama

```bash
# Installer Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 9B — fonctionne sur n'importe quoi (8Go de VRAM)
ollama run qwen3.5:9b

# 35B quantifié — nécessite RTX 4090 (24Go)
ollama run qwen3.5:35b

# En tant que serveur API
ollama serve &
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.5:35b",
    "messages": [{"role": "user", "content": "Solve this: if f(x) = x^3 - 3x + 1, find all real roots"}]
  }'
```

## Configuration vLLM (Production)

```bash
pip install vllm

# 35B sur un seul GPU
vllm serve Qwen/Qwen3.5-35B-Instruct \
  --max-model-len 32768 \
  --gpu-memory-utilization 0.90

# 9B avec contexte long
vllm serve Qwen/Qwen3.5-9B-Instruct \
  --max-model-len 65536

# 397B sur un cluster multi-GPU
vllm serve Qwen/Qwen3.5-397B-A45B-Instruct \
  --tensor-parallel-size 8 \
  --max-model-len 32768
```

## HuggingFace Transformers

```python
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3.5-35B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    load_in_4bit=True  # Permet de faire tenir le 35B sur 24Go
)

messages = [
    {"role": "system", "content": "You are a helpful math tutor."},
    {"role": "user", "content": "Prove that the square root of 2 is irrational."}
]

input_ids = tokenizer.apply_chat_template(messages, return_tensors="pt").to(model.device)
output = model.generate(input_ids, max_new_tokens=2048, temperature=0.7, do_sample=True)
print(tokenizer.decode(output[0][input_ids.shape[-1]:], skip_special_tokens=True))
```

## Exemple d'utilisation agentique / d'outils

```python
import json
from openai import OpenAI

client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")

tools = [{
    "type": "function",
    "function": {
        "name": "get_gpu_price",
        "description": "Get current rental price for a GPU model on Clore.ai",
        "parameters": {
            "type": "object",
            "properties": {
                "gpu_model": {"type": "string", "description": "GPU model name, e.g. RTX 4090"}
            },
            "required": ["gpu_model"]
        }
    }
}]

response = client.chat.completions.create(
    model="qwen3.5:35b",
    messages=[{"role": "user", "content": "What's the cheapest GPU I can rent for running a 7B model?"}],
    tools=tools,
    tool_choice="auto"
)

# Qwen3.5 will call get_gpu_price with appropriate parameters
print(response.choices[0].message)
```

## Pourquoi Qwen3.5 sur Clore.ai ?

Le modèle 35B est sans doute le **meilleur modèle que vous pouvez exécuter sur un seul RTX 4090**:

* Batte Llama 4 Scout en mathématiques et raisonnement
* Batte Gemma 3 27B sur les tâches agentiques
* L'utilisation d'outils / l'appel de fonctions fonctionne dès la sortie de la boîte
* Apache 2.0 = pas de casse-tête de licence

À 0,5–2 $/jour pour un RTX 4090, vous obtenez une IA de classe frontier pour le prix d'un café.

## Conseils pour les utilisateurs de Clore.ai

* **35B est le point optimal**: Tient sur RTX 4090 Q4, surpasse la plupart des modèles 70B
* **9B pour les budgets serrés**: Même un RTX 3060 (0,15 $/jour) exécute bien le modèle 9B
* **Utilisez Ollama pour un démarrage rapide**: Une commande pour servir ; API compatible OpenAI incluse
* **Flux de travail agentiques**: Qwen3.5 excelle dans l'utilisation d'outils — combinez avec l'appel de fonctions pour l'automatisation
* **Modèle récent = moins de cache**: Le premier téléchargement prend du temps (\~20Go pour le 35B). Pré-téléchargez avant que votre charge de travail ne commence

## Dépannage

| Problème                         | Solution                                                                       |
| -------------------------------- | ------------------------------------------------------------------------------ |
| 35B OOM sur 24Go                 | Utilisez `load_in_4bit=True` ou réduisez `--max-model-len`                     |
| Modèle Ollama introuvable        | Mettre à jour Ollama : `curl -fsSL https://ollama.com/install.sh \| sh`        |
| Lent à la première requête       | Le chargement du modèle prend 30–60s ; les requêtes suivantes sont rapides     |
| Appels d'outils non fonctionnels | Assurez-vous de passer `tools` paramètre ; n'utilisez que la variante instruct |

## Lectures complémentaires

* [Blog Qwen](https://qwenlm.github.io/)
* [Modèles HuggingFace](https://huggingface.co/Qwen)
* [Bibliothèque Ollama](https://ollama.com/library/qwen3.5)


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/qwen35.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
