Qwen3.5

Führen Sie Alibaba Qwen3.5 auf Clore.ai aus — das neueste Frontier-Modell (Feb 2026)

Qwen3.5, veröffentlicht am 16. Februar 2026, ist Alibabas neuestes Flaggschiffmodell und eine der heißesten Open-Source-Veröffentlichungen des Jahres 2026. Das 397B MoE-Flaggschiff schlug Claude 4.5 Opus im HMMT-Mathematik-Benchmark, während das kleinere 35B-dichte Modell auf eine einzelne RTX 4090 passt. Alle Modelle verfügen von Haus aus über agentische Fähigkeiten (Werkzeugnutzung, Funktionsaufrufe, autonome Aufgabenausführung) und multimodales Verständnis.

Hauptmerkmale

  • Drei Größen: 9B (dense), 35B (dense), 397B (MoE) — für jede GPU etwas

  • Schlägt Claude 4.5 Opus im HMMT-Mathematik-Benchmark

  • Nativ multimodal: Text- + Bildverständnis

  • Agentische Fähigkeiten: Werkzeugnutzung, Funktionsaufrufe, autonome Workflows

  • 128K Kontextfenster: Verarbeitet große Dokumente und Codebasen

  • Apache-2.0-Lizenz: Volle kommerzielle Nutzung, keine Einschränkungen

Modellvarianten

Modell
Parameter
Typ
VRAM (Q4)
VRAM (FP16)
Stärke

Qwen3.5-9B

9B

Dense

6GB

18GB

Schnell, effizient

Qwen3.5-35B

35B

Dense

22GB

70GB

Bestes Single-GPU-Modell

Qwen3.5-397B

397B

MoE

~100GB

400GB+

Frontier-Klasse

Anforderungen

Komponente
9B (Q4)
35B (Q4)
397B (Multi-GPU)

GPU

RTX 3080 10GB

RTX 4090 24GB

4× H100 80GB

VRAM

8GB

22GB

320GB+

RAM

16GB

32GB

128GB

Festplatte

15GB

30GB

250GB

Empfohlene Clore.ai-GPU: RTX 4090 24GB (~0,5–2 $/Tag) für 35B — bestes Preis-Leistungs-Verhältnis

Schnellstart mit Ollama

vLLM-Einrichtung (Produktion)

HuggingFace Transformers

Agentisches / Werkzeugnutzungs-Beispiel

Warum Qwen3.5 auf Clore.ai?

Das 35B-Modell ist wohl das beste Modell, das man auf einer einzigen RTX 4090 betreiben kann:

  • Schlägt Llama 4 Scout in Mathematik und Schlussfolgerungen

  • Schlägt Gemma 3 27B bei agentischen Aufgaben

  • Werkzeugnutzung / Funktionsaufrufe funktionieren direkt out of the box

  • Apache 2.0 = keine Lizenzkopfschmerzen

Bei 0,5–2 $/Tag für eine RTX 4090 erhält man Frontier-Klasse-KI zum Preis eines Kaffees.

Tipps für Clore.ai-Nutzer

  • 35B ist der Sweet Spot: Passt auf RTX 4090 Q4, übertrifft die meisten 70B-Modelle

  • 9B für Budget: Sogar eine RTX 3060 (~0,15 $/Tag) betreibt das 9B-Modell gut

  • Verwende Ollama für den Schnellstart: Ein Befehl zum Bereitstellen; OpenAI-kompatible API enthalten

  • Agentische Workflows: Qwen3.5 glänzt bei Werkzeugnutzung — mit Funktionsaufrufen für Automatisierung kombinieren

  • Frisches Modell = weniger gecachet: Der erste Download dauert; Vorab-Download vor Arbeitsbeginn empfohlen (~20GB für 35B).

Fehlerbehebung

Problem
Lösung

35B OOM auf 24GB

Verwende load_in_4bit=True oder reduziere --max-model-len

Ollama-Modell nicht gefunden

Ollama aktualisieren: curl -fsSL https://ollama.com/install.sh | sh

Langsam bei der ersten Anfrage

Modell-Laden dauert 30–60s; nachfolgende Anfragen sind schnell

Werkzeugaufrufe funktionieren nicht

Stelle sicher, dass du tools Parameter übergibst; nur Instruct-Variante verwenden

Weiterführende Lektüre

Zuletzt aktualisiert

War das hilfreich?