Qwen3.5

Alibaba Qwen3.5 auf Clore.ai ausführen — das aktuellste Frontier‑Modell (Feb 2026)

Qwen3.5, veröffentlicht am 16. Februar 2026, ist Alibabas neuestes Flaggschiffmodell und eine der heißesten Open-Source-Veröffentlichungen des Jahres 2026. Das 397B MoE-Flaggschiff schlug Claude 4.5 Opus im HMMT-Mathematik-Benchmark, während das kleinere 35B-dichte Modell auf eine einzelne RTX 4090 passt. Alle Modelle verfügen von Haus aus über agentische Fähigkeiten (Werkzeugnutzung, Funktionsaufrufe, autonome Aufgabenausführung) und multimodales Verständnis.

Hauptmerkmale

Drei Größen: 9B (dense), 35B (dense), 397B (MoE) — für jede GPU etwas
Schlägt Claude 4.5 Opus im HMMT-Mathematik-Benchmark
Nativ multimodal: Text- + Bildverständnis
Agentische Fähigkeiten: Werkzeugnutzung, Funktionsaufrufe, autonome Workflows
128K Kontextfenster: Verarbeitet große Dokumente und Codebasen
Apache-2.0-Lizenz: Volle kommerzielle Nutzung, keine Einschränkungen

Modellvarianten

Modell

Parameter

Typ

VRAM (Q4)

VRAM (FP16)

Stärke

Qwen3.5-9B

Dense

6GB

18GB

Schnell, effizient

Qwen3.5-35B

35B

Dense

22GB

70GB

Bestes Single-GPU-Modell

Qwen3.5-397B

397B

MoE

~100GB

400GB+

Frontier-Klasse

Anforderungen

Komponente

9B (Q4)

35B (Q4)

397B (Multi-GPU)

GPU

RTX 3080 10GB

RTX 4090 24GB

4× H100 80GB

VRAM

8GB

22GB

320GB+

RAM

16GB

32GB

128GB

Festplatte

15GB

30GB

250GB

Empfohlene Clore.ai-GPU: RTX 4090 24GB (~0,5–2 $/Tag) für 35B — bestes Preis-Leistungs-Verhältnis

Schnellstart mit Ollama

# Ollama installieren
curl -fsSL https://ollama.com/install.sh | sh

# 9B — läuft auf allem (8GB VRAM)
ollama run qwen3.5:9b

# 35B quantisiert — benötigt RTX 4090 (24GB)
ollama run qwen3.5:35b

# Als API-Server
ollama serve &
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.5:35b",
    "messages": [{"role": "user", "content": "Löse dies: wenn f(x) = x^3 - 3x + 1, finde alle reellen Nullstellen"}]
  }'

vLLM-Einrichtung (Produktion)

pip install vllm

# 35B auf einer GPU
vllm serve Qwen/Qwen3.5-35B-Instruct \
  --max-model-len 32768 \
  --gpu-memory-utilization 0.90

# 9B mit langem Kontext
vllm serve Qwen/Qwen3.5-9B-Instruct \
  --max-model-len 65536

# 397B auf einem Multi-GPU-Cluster
vllm serve Qwen/Qwen3.5-397B-A45B-Instruct \
  --tensor-parallel-size 8 \
  --max-model-len 32768

HuggingFace Transformers

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3.5-35B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    load_in_4bit=True  # Passt 35B auf 24GB
)

messages = [
    {"role": "system", "content": "Du bist ein hilfreicher Mathe-Nachhilfelehrer."},
    {"role": "user", "content": "Beweise, dass die Quadratwurzel von 2 irrational ist."}
]

input_ids = tokenizer.apply_chat_template(messages, return_tensors="pt").to(model.device)
output = model.generate(input_ids, max_new_tokens=2048, temperature=0.7, do_sample=True)
print(tokenizer.decode(output[0][input_ids.shape[-1]:], skip_special_tokens=True))

Agentisches / Werkzeugnutzungs-Beispiel

import json
from openai import OpenAI

client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")

tools = [{
    "type": "function",
    "function": {
        "name": "get_gpu_price",
        "description": "Hole aktuellen Mietpreis für ein GPU-Modell auf Clore.ai",
        "parameters": {
            "type": "object",
            "properties": {
                "gpu_model": {"type": "string", "description": "GPU-Modellname, z. B. RTX 4090"}
            },
            "required": ["gpu_model"]
        }
    }
}]

response = client.chat.completions.create(
    model="qwen3.5:35b",
    messages=[{"role": "user", "content": "Was ist die günstigste GPU, die ich mieten kann, um ein 7B-Modell auszuführen?"}],
    tools=tools,
    tool_choice="auto"
)

# Qwen3.5 wird get_gpu_price mit den passenden Parametern aufrufen
print(response.choices[0].message)

Warum Qwen3.5 auf Clore.ai?

Das 35B-Modell ist wohl das beste Modell, das man auf einer einzigen RTX 4090 betreiben kann:

Schlägt Llama 4 Scout in Mathematik und Schlussfolgerungen
Schlägt Gemma 3 27B bei agentischen Aufgaben
Werkzeugnutzung / Funktionsaufrufe funktionieren direkt out of the box
Apache 2.0 = keine Lizenzkopfschmerzen

Bei 0,5–2 $/Tag für eine RTX 4090 erhält man Frontier-Klasse-KI zum Preis eines Kaffees.

Tipps für Clore.ai-Nutzer

35B ist der Sweet Spot: Passt auf RTX 4090 Q4, übertrifft die meisten 70B-Modelle
9B für Budget: Sogar eine RTX 3060 (~0,15 $/Tag) betreibt das 9B-Modell gut
Verwende Ollama für den Schnellstart: Ein Befehl zum Bereitstellen; OpenAI-kompatible API enthalten
Agentische Workflows: Qwen3.5 glänzt bei Werkzeugnutzung — mit Funktionsaufrufen für Automatisierung kombinieren
Frisches Modell = weniger gecachet: Der erste Download dauert; Vorab-Download vor Arbeitsbeginn empfohlen (~20GB für 35B).

Fehlerbehebung

Problem

Lösung

35B OOM auf 24GB

Verwende load_in_4bit=True oder reduziere --max-model-len

Ollama-Modell nicht gefunden

Ollama aktualisieren: curl -fsSL https://ollama.com/install.sh | sh

Langsam bei der ersten Anfrage

Modell-Laden dauert 30–60s; nachfolgende Anfragen sind schnell

Werkzeugaufrufe funktionieren nicht

Stelle sicher, dass du tools Parameter übergibst; nur Instruct-Variante verwenden

Weiterführende Lektüre

VorherigeMistral Small 3.1 NächsteGLM-5

Zuletzt aktualisiert vor 24 Tagen

War das hilfreich?

hashtagHauptmerkmale

hashtagModellvarianten

hashtagAnforderungen

hashtagSchnellstart mit Ollama

hashtagvLLM-Einrichtung (Produktion)

hashtagHuggingFace Transformers

hashtagAgentisches / Werkzeugnutzungs-Beispiel

hashtagWarum Qwen3.5 auf Clore.ai?

hashtagTipps für Clore.ai-Nutzer

hashtagFehlerbehebung

hashtagWeiterführende Lektüre