# Qwen3.5

Qwen3.5, veröffentlicht am 16. Februar 2026, ist Alibabas neuestes Flaggschiffmodell und eine der heißesten Open-Source-Veröffentlichungen des Jahres 2026. Das **397B MoE-Flaggschiff** schlug Claude 4.5 Opus im HMMT-Mathematik-Benchmark, während das kleinere **35B-dichte Modell** auf eine einzelne RTX 4090 passt. Alle Modelle verfügen von Haus aus über agentische Fähigkeiten (Werkzeugnutzung, Funktionsaufrufe, autonome Aufgabenausführung) und multimodales Verständnis.

## Hauptmerkmale

* **Drei Größen**: 9B (dense), 35B (dense), 397B (MoE) — für jede GPU etwas
* **Schlägt Claude 4.5 Opus** im HMMT-Mathematik-Benchmark
* **Nativ multimodal**: Text- + Bildverständnis
* **Agentische Fähigkeiten**: Werkzeugnutzung, Funktionsaufrufe, autonome Workflows
* **128K Kontextfenster**: Verarbeitet große Dokumente und Codebasen
* **Apache-2.0-Lizenz**: Volle kommerzielle Nutzung, keine Einschränkungen

## Modellvarianten

| Modell       | Parameter | Typ   | VRAM (Q4) | VRAM (FP16) | Stärke                   |
| ------------ | --------- | ----- | --------- | ----------- | ------------------------ |
| Qwen3.5-9B   | 9B        | Dense | 6GB       | 18GB        | Schnell, effizient       |
| Qwen3.5-35B  | 35B       | Dense | 22GB      | 70GB        | Bestes Single-GPU-Modell |
| Qwen3.5-397B | 397B      | MoE   | \~100GB   | 400GB+      | Frontier-Klasse          |

## Anforderungen

| Komponente | 9B (Q4)       | 35B (Q4)      | 397B (Multi-GPU) |
| ---------- | ------------- | ------------- | ---------------- |
| GPU        | RTX 3080 10GB | RTX 4090 24GB | 4× H100 80GB     |
| VRAM       | 8GB           | 22GB          | 320GB+           |
| RAM        | 16GB          | 32GB          | 128GB            |
| Festplatte | 15GB          | 30GB          | 250GB            |

**Empfohlene Clore.ai-GPU**: RTX 4090 24GB (\~0,5–2 $/Tag) für 35B — bestes Preis-Leistungs-Verhältnis

## Schnellstart mit Ollama

```bash
# Ollama installieren
curl -fsSL https://ollama.com/install.sh | sh

# 9B — läuft auf allem (8GB VRAM)
ollama run qwen3.5:9b

# 35B quantisiert — benötigt RTX 4090 (24GB)
ollama run qwen3.5:35b

# Als API-Server
ollama serve &
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.5:35b",
    "messages": [{"role": "user", "content": "Löse dies: wenn f(x) = x^3 - 3x + 1, finde alle reellen Nullstellen"}]
  }'
```

## vLLM-Einrichtung (Produktion)

```bash
pip install vllm

# 35B auf einer GPU
vllm serve Qwen/Qwen3.5-35B-Instruct \
  --max-model-len 32768 \
  --gpu-memory-utilization 0.90

# 9B mit langem Kontext
vllm serve Qwen/Qwen3.5-9B-Instruct \
  --max-model-len 65536

# 397B auf einem Multi-GPU-Cluster
vllm serve Qwen/Qwen3.5-397B-A45B-Instruct \
  --tensor-parallel-size 8 \
  --max-model-len 32768
```

## HuggingFace Transformers

```python
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3.5-35B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    load_in_4bit=True  # Passt 35B auf 24GB
)

messages = [
    {"role": "system", "content": "Du bist ein hilfreicher Mathe-Nachhilfelehrer."},
    {"role": "user", "content": "Beweise, dass die Quadratwurzel von 2 irrational ist."}
]

input_ids = tokenizer.apply_chat_template(messages, return_tensors="pt").to(model.device)
output = model.generate(input_ids, max_new_tokens=2048, temperature=0.7, do_sample=True)
print(tokenizer.decode(output[0][input_ids.shape[-1]:], skip_special_tokens=True))
```

## Agentisches / Werkzeugnutzungs-Beispiel

```python
import json
from openai import OpenAI

client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")

tools = [{
    "type": "function",
    "function": {
        "name": "get_gpu_price",
        "description": "Hole aktuellen Mietpreis für ein GPU-Modell auf Clore.ai",
        "parameters": {
            "type": "object",
            "properties": {
                "gpu_model": {"type": "string", "description": "GPU-Modellname, z. B. RTX 4090"}
            },
            "required": ["gpu_model"]
        }
    }
}]

response = client.chat.completions.create(
    model="qwen3.5:35b",
    messages=[{"role": "user", "content": "Was ist die günstigste GPU, die ich mieten kann, um ein 7B-Modell auszuführen?"}],
    tools=tools,
    tool_choice="auto"
)

# Qwen3.5 wird get_gpu_price mit den passenden Parametern aufrufen
print(response.choices[0].message)
```

## Warum Qwen3.5 auf Clore.ai?

Das 35B-Modell ist wohl das **beste Modell, das man auf einer einzigen RTX 4090 betreiben kann**:

* Schlägt Llama 4 Scout in Mathematik und Schlussfolgerungen
* Schlägt Gemma 3 27B bei agentischen Aufgaben
* Werkzeugnutzung / Funktionsaufrufe funktionieren direkt out of the box
* Apache 2.0 = keine Lizenzkopfschmerzen

Bei 0,5–2 $/Tag für eine RTX 4090 erhält man Frontier-Klasse-KI zum Preis eines Kaffees.

## Tipps für Clore.ai-Nutzer

* **35B ist der Sweet Spot**: Passt auf RTX 4090 Q4, übertrifft die meisten 70B-Modelle
* **9B für Budget**: Sogar eine RTX 3060 (\~0,15 $/Tag) betreibt das 9B-Modell gut
* **Verwende Ollama für den Schnellstart**: Ein Befehl zum Bereitstellen; OpenAI-kompatible API enthalten
* **Agentische Workflows**: Qwen3.5 glänzt bei Werkzeugnutzung — mit Funktionsaufrufen für Automatisierung kombinieren
* **Frisches Modell = weniger gecachet**: Der erste Download dauert; Vorab-Download vor Arbeitsbeginn empfohlen (\~20GB für 35B).

## Fehlerbehebung

| Problem                             | Lösung                                                                              |
| ----------------------------------- | ----------------------------------------------------------------------------------- |
| 35B OOM auf 24GB                    | Verwende `load_in_4bit=True` oder reduziere `--max-model-len`                       |
| Ollama-Modell nicht gefunden        | Ollama aktualisieren: `curl -fsSL https://ollama.com/install.sh \| sh`              |
| Langsam bei der ersten Anfrage      | Modell-Laden dauert 30–60s; nachfolgende Anfragen sind schnell                      |
| Werkzeugaufrufe funktionieren nicht | Stelle sicher, dass du `tools` Parameter übergibst; nur Instruct-Variante verwenden |

## Weiterführende Lektüre

* [Qwen-Blog](https://qwenlm.github.io/)
* [HuggingFace-Modelle](https://huggingface.co/Qwen)
* [Ollama-Bibliothek](https://ollama.com/library/qwen3.5)
