Qwen3.5

Exécuter Alibaba Qwen3.5 sur Clore.ai — le modèle frontier le plus récent (févr. 2026)

Qwen3.5, publié le 16 février 2026, est le dernier modèle phare d'Alibaba et l'une des sorties open-source les plus en vue de 2026. Le modèle phare MoE de 397 milliards a battu Claude 4.5 Opus sur le benchmark mathématique HMMT, tandis que le plus petit modèle dense de 35 milliards tient sur un seul RTX 4090. Tous les modèles incluent dès le départ des capacités agentiques (utilisation d'outils, appel de fonctions, exécution autonome de tâches) et une compréhension multimodale.

Principales caractéristiques

Trois tailles: 9B (dense), 35B (dense), 397B (MoE) — quelque chose pour chaque GPU
A battu Claude 4.5 Opus sur le benchmark mathématique HMMT
Nativement multimodal: Compréhension texte + image
Capacités agentiques: Utilisation d'outils, appel de fonctions, flux de travail autonomes
Fenêtre de contexte 128K: Gérer de grands documents et des bases de code
Licence Apache 2.0: Usage commercial complet, sans restrictions

Variantes du modèle

Modèle

Paramètres

Type

VRAM (Q4)

VRAM (FP16)

Atout

Qwen3.5-9B

Dense

6Go

18Go

Rapide, efficace

Qwen3.5-35B

35B

Dense

22Go

70Go

Meilleur pour un seul GPU

Qwen3.5-397B

397B

MoE

~100Go

400Go+

De classe frontier

Exigences

Composant

9B (Q4)

35B (Q4)

397B (multi-GPU)

GPU

RTX 3080 10Go

RTX 4090 24Go

4× H100 80Go

VRAM

8Go

22Go

320Go+

RAM

16Go

32Go

128Go

Disque

15Go

30Go

250Go

GPU recommandé par Clore.ai: RTX 4090 24Go (~0,5–2 $/jour) pour le 35B — meilleur rapport qualité/prix

Démarrage rapide avec Ollama

# Installer Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 9B — fonctionne sur n'importe quoi (8Go de VRAM)
ollama run qwen3.5:9b

# 35B quantifié — nécessite RTX 4090 (24Go)
ollama run qwen3.5:35b

# En tant que serveur API
ollama serve &
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.5:35b",
    "messages": [{"role": "user", "content": "Solve this: if f(x) = x^3 - 3x + 1, find all real roots"}]
  }'

Configuration vLLM (Production)

pip install vllm

# 35B sur un seul GPU
vllm serve Qwen/Qwen3.5-35B-Instruct \
  --max-model-len 32768 \
  --gpu-memory-utilization 0.90

# 9B avec contexte long
vllm serve Qwen/Qwen3.5-9B-Instruct \
  --max-model-len 65536

# 397B sur un cluster multi-GPU
vllm serve Qwen/Qwen3.5-397B-A45B-Instruct \
  --tensor-parallel-size 8 \
  --max-model-len 32768

HuggingFace Transformers

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3.5-35B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    load_in_4bit=True  # Permet de faire tenir le 35B sur 24Go
)

messages = [
    {"role": "system", "content": "You are a helpful math tutor."},
    {"role": "user", "content": "Prove that the square root of 2 is irrational."}
]

input_ids = tokenizer.apply_chat_template(messages, return_tensors="pt").to(model.device)
output = model.generate(input_ids, max_new_tokens=2048, temperature=0.7, do_sample=True)
print(tokenizer.decode(output[0][input_ids.shape[-1]:], skip_special_tokens=True))

Exemple d'utilisation agentique / d'outils

import json
from openai import OpenAI

client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")

tools = [{
    "type": "function",
    "function": {
        "name": "get_gpu_price",
        "description": "Get current rental price for a GPU model on Clore.ai",
        "parameters": {
            "type": "object",
            "properties": {
                "gpu_model": {"type": "string", "description": "GPU model name, e.g. RTX 4090"}
            },
            "required": ["gpu_model"]
        }
    }
}]

response = client.chat.completions.create(
    model="qwen3.5:35b",
    messages=[{"role": "user", "content": "What's the cheapest GPU I can rent for running a 7B model?"}],
    tools=tools,
    tool_choice="auto"
)

# Qwen3.5 will call get_gpu_price with appropriate parameters
print(response.choices[0].message)

Pourquoi Qwen3.5 sur Clore.ai ?

Le modèle 35B est sans doute le meilleur modèle que vous pouvez exécuter sur un seul RTX 4090:

Batte Llama 4 Scout en mathématiques et raisonnement
Batte Gemma 3 27B sur les tâches agentiques
L'utilisation d'outils / l'appel de fonctions fonctionne dès la sortie de la boîte
Apache 2.0 = pas de casse-tête de licence

À 0,5–2 $/jour pour un RTX 4090, vous obtenez une IA de classe frontier pour le prix d'un café.

Conseils pour les utilisateurs de Clore.ai

35B est le point optimal: Tient sur RTX 4090 Q4, surpasse la plupart des modèles 70B
9B pour les budgets serrés: Même un RTX 3060 (0,15 $/jour) exécute bien le modèle 9B
Utilisez Ollama pour un démarrage rapide: Une commande pour servir ; API compatible OpenAI incluse
Flux de travail agentiques: Qwen3.5 excelle dans l'utilisation d'outils — combinez avec l'appel de fonctions pour l'automatisation
Modèle récent = moins de cache: Le premier téléchargement prend du temps (~20Go pour le 35B). Pré-téléchargez avant que votre charge de travail ne commence

Dépannage

Problème

Solution

35B OOM sur 24Go

Utilisez load_in_4bit=True ou réduisez --max-model-len

Modèle Ollama introuvable

Mettre à jour Ollama : curl -fsSL https://ollama.com/install.sh | sh

Lent à la première requête

Le chargement du modèle prend 30–60s ; les requêtes suivantes sont rapides

Appels d'outils non fonctionnels

Assurez-vous de passer tools paramètre ; n'utilisez que la variante instruct

Lectures complémentaires

PrécédentMistral Small 3.1 SuivantGLM-5

Mis à jour il y a 21 jours

Ce contenu vous a-t-il été utile ?

hashtagPrincipales caractéristiques

hashtagVariantes du modèle

hashtagExigences

hashtagDémarrage rapide avec Ollama

hashtagConfiguration vLLM (Production)

hashtagHuggingFace Transformers

hashtagExemple d'utilisation agentique / d'outils

hashtagPourquoi Qwen3.5 sur Clore.ai ?

hashtagConseils pour les utilisateurs de Clore.ai

hashtagDépannage

hashtagLectures complémentaires