Qwen3.5

Exécutez Alibaba Qwen3.5 sur Clore.ai — le modèle de pointe le plus récent (févr. 2026)

Qwen3.5, publié le 16 février 2026, est le dernier modèle phare d'Alibaba et l'une des sorties open-source les plus en vue de 2026. Le modèle phare MoE de 397 milliards a battu Claude 4.5 Opus sur le benchmark mathématique HMMT, tandis que le plus petit modèle dense de 35 milliards tient sur un seul RTX 4090. Tous les modèles incluent dès le départ des capacités agentiques (utilisation d'outils, appel de fonctions, exécution autonome de tâches) et une compréhension multimodale.

Principales caractéristiques

  • Trois tailles: 9B (dense), 35B (dense), 397B (MoE) — quelque chose pour chaque GPU

  • A battu Claude 4.5 Opus sur le benchmark mathématique HMMT

  • Nativement multimodal: Compréhension texte + image

  • Capacités agentiques: Utilisation d'outils, appel de fonctions, flux de travail autonomes

  • Fenêtre de contexte 128K: Gérer de grands documents et des bases de code

  • Licence Apache 2.0: Usage commercial complet, sans restrictions

Variantes du modèle

Modèle
Paramètres
Type
VRAM (Q4)
VRAM (FP16)
Atout

Qwen3.5-9B

9B

Dense

6Go

18Go

Rapide, efficace

Qwen3.5-35B

35B

Dense

22Go

70Go

Meilleur pour un seul GPU

Qwen3.5-397B

397B

MoE

~100Go

400Go+

De classe frontier

Exigences

Composant
9B (Q4)
35B (Q4)
397B (multi-GPU)

GPU

RTX 3080 10Go

RTX 4090 24Go

4× H100 80Go

VRAM

8Go

22Go

320Go+

RAM

16Go

32Go

128Go

Disque

15Go

30Go

250Go

GPU recommandé par Clore.ai: RTX 4090 24Go (~0,5–2 $/jour) pour le 35B — meilleur rapport qualité/prix

Démarrage rapide avec Ollama

Configuration vLLM (Production)

HuggingFace Transformers

Exemple d'utilisation agentique / d'outils

Pourquoi Qwen3.5 sur Clore.ai ?

Le modèle 35B est sans doute le meilleur modèle que vous pouvez exécuter sur un seul RTX 4090:

  • Batte Llama 4 Scout en mathématiques et raisonnement

  • Batte Gemma 3 27B sur les tâches agentiques

  • L'utilisation d'outils / l'appel de fonctions fonctionne dès la sortie de la boîte

  • Apache 2.0 = pas de casse-tête de licence

À 0,5–2 $/jour pour un RTX 4090, vous obtenez une IA de classe frontier pour le prix d'un café.

Conseils pour les utilisateurs de Clore.ai

  • 35B est le point optimal: Tient sur RTX 4090 Q4, surpasse la plupart des modèles 70B

  • 9B pour les budgets serrés: Même un RTX 3060 (0,15 $/jour) exécute bien le modèle 9B

  • Utilisez Ollama pour un démarrage rapide: Une commande pour servir ; API compatible OpenAI incluse

  • Flux de travail agentiques: Qwen3.5 excelle dans l'utilisation d'outils — combinez avec l'appel de fonctions pour l'automatisation

  • Modèle récent = moins de cache: Le premier téléchargement prend du temps (~20Go pour le 35B). Pré-téléchargez avant que votre charge de travail ne commence

Dépannage

Problème
Solution

35B OOM sur 24Go

Utilisez load_in_4bit=True ou réduisez --max-model-len

Modèle Ollama introuvable

Mettre à jour Ollama : curl -fsSL https://ollama.com/install.sh | sh

Lent à la première requête

Le chargement du modèle prend 30–60s ; les requêtes suivantes sont rapides

Appels d'outils non fonctionnels

Assurez-vous de passer tools paramètre ; n'utilisez que la variante instruct

Lectures complémentaires

Mis à jour

Ce contenu vous a-t-il été utile ?