> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/qwen35-omni.md).

# Qwen3.5-Omni (Multimodal)

Alibabas **Qwen3.5-Omni** ist ein einheitliches multimodales End-to-End-Modell, das am 30. März 2026 unter der Apache-2.0-Lizenz veröffentlicht wurde. Es kann Text, Audio, Bilder und Video gleichzeitig verstehen und darüber schlussfolgern — und sowohl Text als auch Sprache als Ausgabe erzeugen. Wenn Sie es auf einer gemieteten Clore.ai-GPU betreiben, erhalten Sie einen multimodalen Assistenten in Produktionsqualität zu einem Bruchteil der Kosten von Cloud-APIs.

***

## Was ist Qwen3.5-Omni?

Qwen3.5-Omni ist ein **multimodales End-to-End-Modell** auf Basis einer sparsamen Mixture-of-Experts-Architektur. Die HuggingFace-Veröffentlichung (`Qwen3.5-Omni-7B`) verwendet Alibabas Namenskonvention, bei der „7B“ die aktive Parameterkonfiguration pro Inferenzschritt bezeichnet; der vollständige Checkpoint enthält alle Expertengewichte. Diese Sparsity macht es mithilfe von INT4-Quantisierung auf einer einzelnen RTX 4090 (24 GB) einsetzbar — ein Modell, das sonst bei voller Präzision deutlich mehr VRAM benötigen würde.

### Wichtige Fähigkeiten

| Modalität | Eingabe                        | Ausgabe            |
| --------- | ------------------------------ | ------------------ |
| Text      | ✅                              | ✅                  |
| Audio     | ✅ (Transkription, Verständnis) | ✅ (Sprachsynthese) |
| Bild      | ✅ (Verständnis, OCR, Analyse)  | —                  |
| Video     | ✅ (Szenenverständnis, QA)      | —                  |

Im Gegensatz zu früheren multimodalen Modellen, die separate Encoder zusammenfügen, verarbeitet Qwen3.5-Omni alle Modalitäten in einem einzigen einheitlichen Forward-Pass. Es kann gleichzeitig gesprochene Audiodaten transkribieren, einen Videorahmen analysieren und mit Text sowie einer synthetisierten Stimme antworten — in nur einem Inferenzaufruf.

### Architektur-Highlights

* **Gated Delta Networks (GDN)** für effiziente Sequenzmodellierung mit subquadratischer Komplexität bei langen Audio-/Videostreams
* **Sparse Mixture-of-Experts** — 30 Mrd. Gesamtparameter, \~3 Mrd. aktiv pro Token; vergleichbare Qualität wie dichte 7–14B-Modelle, aber bei Skalierung schneller
* **Einheitlicher Tokenizer** für Text, Audio-Frames, Bild-Patches und Videoframe-Sequenzen
* **Integrierter TTS-Decoder** — erzeugt Sprachwellenformen nativ statt über eine separate Pipeline

Veröffentlicht am 30. März 2026 · Lizenz: **Apache 2.0** · [HuggingFace](https://huggingface.co/Qwen/Qwen3.5-Omni-7B)

***

## Qwen3.5-Omni vs. verwandte Modelle

| Modell             | Parameter          | Modalitäten In           | Sprachausgabe | Lizenz     | VRAM (INT4) |
| ------------------ | ------------------ | ------------------------ | ------------- | ---------- | ----------- |
| **Qwen3.5-Omni**   | 30B MoE (3B aktiv) | Text, Audio, Bild, Video | ✅             | Apache 2.0 | \~15 GB     |
| Qwen3.5 (nur Text) | 32B                | Nur Text                 | ❌             | Apache 2.0 | \~18 GB     |
| Qwen2.5-VL         | 72B                | Text, Bild, Video        | ❌             | Apache 2.0 | \~40 GB     |
| Gemini 2.0 Flash   | —                  | Text, Audio, Bild, Video | ✅             | Proprietär | nur API     |

Im Vergleich zu **Qwen3.5 (nur Text)**&#x66;ügt die Omni-Variante Audio-/Video-Verständnis und Sprachausgabe hinzu, benötigt dank der MoE-Architektur aber tatsächlich *weniger* VRAM bei INT4. Im Vergleich zu **Qwen2.5-VL**fügt sie Audio-E/A hinzu, benötigt jedoch deutlich weniger Hardware.

***

## Hardware-Anforderungen

| Präzision      | Benötigter VRAM | Empfohlene GPU           |
| -------------- | --------------- | ------------------------ |
| BF16 (voll)    | 64–80 GB        | A100 80GB, H100          |
| BF16 Multi-GPU | 2× 40 GB        | 2× A40 / 2× A6000        |
| INT4 / GGUF    | \~15 GB         | RTX 4090 (24 GB) ✅       |
| INT8           | \~30 GB         | A6000 48GB, RTX 6000 Ada |

Für die meisten selbst gehosteten Anwendungsfälle ist **INT4 auf einer RTX 4090** der ideale Kompromiss: volle multimodale Fähigkeiten für 0,50–0,80 $/Tag auf Clore.ai.

***

## Schnellstart auf Clore.ai

### Schritt 1: Eine GPU mieten

Gehen Sie zu [clore.ai/marketplace](https://clore.ai/marketplace) und mieten Sie:

* **INT4 / Einzel-GPU**: RTX 4090 (24 GB) — ab **\~0,50 $/Tag**
* **BF16 / Volle Präzision**: A100 80GB oder H100 — ab **\~2,50 $/Tag**

Verwenden Sie das **vllm/vllm-openai** Docker-Image oder das Standard-CUDA-Image.

### Schritt 2: Mit vLLM bereitstellen (empfohlen)

vLLM v0.17.0+ ist für die Unterstützung von Qwen3.5-Omni erforderlich.

```bash
# vLLM-OpenAI-kompatiblen Server herunterladen und starten
docker run --gpus all --rm -it \
  -p 8000:8000 \
  -v /workspace/models:/root/.cache/huggingface \
  vllm/vllm-openai:v0.17.0 \
  --model Qwen/Qwen3.5-Omni-7B \
  --quantization awq_marlin \
  --max-model-len 32768 \
  --trust-remote-code
```

> **Hinweis:** Der `awq_marlin` Schalter erfordert ein vorquantisiertes AWQ-Modell. Laden Sie `Qwen/Qwen3.5-Omni-7B-AWQ` anstelle des Basismodells herunter oder lassen Sie `--quantization` für BF16 auf A100/H100 weg.

Sobald der Server läuft, stellt er eine OpenAI-kompatible API unter `http://localhost:8000/v1`.

### Schritt 3: Mit Ollama bereitstellen (einfacheres Setup)

Für schnelles Experimentieren ohne Docker-Komplexität:

```bash
# Ollama installieren
curl -fsSL https://ollama.ai/install.sh | sh

# Qwen3.5-Omni herunterladen (quantisiert)
# Hinweis: Verfügbarkeit unter https://ollama.com/library prüfen — Tag kann variieren
ollama pull qwen3.5-omni

# Server starten
ollama serve
```

Ollama übernimmt die Quantisierung automatisch und stellt einen einfachen `/api/generate` Endpunkt bereit.

***

## Beispiel-API-Aufrufe

### Multimodale Eingabe: Bild + Text

```python
import openai
import base64

client = openai.OpenAI(base_url="http://localhost:8000/v1", api_key="none")

# Ein Bild laden
with open("screenshot.png", "rb") as f:
    image_b64 = base64.b64encode(f.read()).decode()

response = client.chat.completions.create(
    model="Qwen/Qwen3.5-Omni-7B",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {"url": f"data:image/png;base64,{image_b64}"}
                },
                {
                    "type": "text",
                    "text": "Beschreiben Sie, was Sie auf diesem Bild sehen, und identifizieren Sie jeglichen Text."
                }
            ]
        }
    ],
    max_tokens=512
)
print(response.choices[0].message.content)
```

### Audio-Transkription + Verständnis

```python
import openai
import base64

client = openai.OpenAI(base_url="http://localhost:8000/v1", api_key="none")

with open("meeting_recording.wav", "rb") as f:
    audio_b64 = base64.b64encode(f.read()).decode()

response = client.chat.completions.create(
    model="Qwen/Qwen3.5-Omni-7B",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "audio_url",
                    "audio_url": {"url": f"data:audio/wav;base64,{audio_b64}"}
                },
                {
                    "type": "text",
                    "text": "Transkribieren Sie dieses Audio und fassen Sie die wichtigsten Punkte zusammen."
                }
            ]
        }
    ]
)
print(response.choices[0].message.content)
```

### Video-Verständnis

```python
# Videoframes können als Sequenz von Bild-URLs übergeben werden
# oder als video_url bei Verwendung der nativen Qwen3.5-Omni-API
response = client.chat.completions.create(
    model="Qwen/Qwen3.5-Omni-7B",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "video_url",
                    "video_url": {"url": "https://example.com/product-demo.mp4"}
                },
                {
                    "type": "text",
                    "text": "Was passiert in diesem Video? Beschreiben Sie jede Szene."
                }
            ]
        }
    ]
)
```

***

## Multi-GPU-Setup für BF16

Wenn Sie auf Clore.ai eine Multi-GPU-Maschine mieten (z. B. 2× A40 oder 2× A6000), verwenden Sie Tensor Parallelism:

```bash
docker run --gpus all --rm -it \
  -p 8000:8000 \
  -v /workspace/models:/root/.cache/huggingface \
  vllm/vllm-openai:v0.17.0 \
  --model Qwen/Qwen3.5-Omni-7B \
  --tensor-parallel-size 2 \
  --dtype bfloat16 \
  --max-model-len 65536 \
  --trust-remote-code
```

Dies verteilt das Modell auf beide GPUs für maximalen Durchsatz und höchste Qualität.

***

## Anwendungsfälle

### 1. Automatisierung des Kundenservice

Qwen3.5-Omni kann Kundenanrufe hören, sie in Echtzeit transkribieren, das Problem verstehen und sowohl eine Textzusammenfassung als auch eine gesprochene Antwort erzeugen. Alles in einem Modell, ohne separate ASR + LLM + TTS-Pipelines zusammenzusetzen.

### 2. Verständnis von Videoinhalten

Laden Sie Produktdemo-Videos, Vorlesungsaufzeichnungen oder Überwachungsmaterial hoch und erhalten Sie detaillierte Textbeschreibungen, zusammengefasste Zeitstempel oder Q\&A. Das Modell verarbeitet bis zu 32K Token Kontext und deckt Videos von mehreren Minuten Länge ab.

### 3. Sprachassistenten in Echtzeit

Erstellen Sie dialogfähige Sprachassistenten, die Kontext über Audio-Wendungen hinweg verstehen. Qwen3.5-Omni behält den Gesprächskontext bei und kann sein textbasiertes Schlussfolgern mit der Sprachausgabe verknüpfen — ideal für telefonbasierte Kundensupport-Bots.

### 4. Analyse von Dokumenten + Screenshots

OCR, Layout-Verständnis, Diagramminterpretation — übergeben Sie Screenshots von Dashboards, PDFs oder handschriftlichen Notizen und erhalten Sie strukturierten Text oder detaillierte Analysen.

### 5. Mehrsprachige Audioverarbeitung

Das Modell unterstützt 29 Sprachen sowohl für Text als auch für Sprache und eignet sich damit für internationalen Kundensupport, mehrsprachige Transkriptions-Pipelines und sprachübergreifende Videoanalysen.

***

## Kostenschätzung auf Clore.ai

| GPU          | Präzision            | VRAM    | Preis/Tag | Am besten geeignet für                    |
| ------------ | -------------------- | ------- | --------- | ----------------------------------------- |
| RTX 4090     | INT4                 | 24 GB   | \~$0.50   | Entwicklung, Tests, Kleinserienproduktion |
| RTX 6000 Ada | INT8                 | 48 GB   | \~$1.20   | Bessere Qualität, moderater Durchsatz     |
| A100 80GB    | BF16                 | 80 GB   | \~$2.50   | Volle Qualität, hoher Durchsatz           |
| 2× A40       | BF16 Tensor Parallel | 2×48 GB | \~$2.00   | Volle Qualität, kosteneffizient           |

Qwen3.5-Omni im INT4-Modus auf einer RTX 4090 zu betreiben kostet pro Tag weniger als ein einziger OpenAI-API-Aufruf für eine komplexe multimodale Aufgabe in großem Maßstab.

***

## Tipps & Fehlerbehebung

**„CUDA out of memory“ auf RTX 4090**

* Fügen Sie `--gpu-memory-utilization 0.90` dem vLLM-Befehl hinzu
* Reduzieren Sie `--max-model-len` auf 16384, wenn Sie kurze Eingaben verarbeiten

**Audioeingabe funktioniert nicht**

* Stellen Sie sicher, dass die vLLM-Version genau `v0.17.0` oder neuer ist — frühere Versionen unterstützen Omni-Audio nicht
* WAV-Dateien müssen für beste Ergebnisse 16 kHz Mono sein; verwenden Sie `ffmpeg -ar 16000 -ac 1` zum Konvertieren

**Langsame erste Inferenz**

* vLLM kompiliert CUDA-Kernels beim ersten Lauf; das Warm-up dauert 2–5 Minuten. Nachfolgende Aufrufe sind schnell.

**Ollama erkennt Videoeingaben nicht**

* Ollama unterstützt derzeit nur Bild+Text und Audio; für Videoverständnis verwenden Sie die vLLM-Bereitstellung.

***

## Zusammenfassung

Qwen3.5-Omni bringt echte multimodale KI von Ende zu Ende — Text, Audio, Bild und Video hinein, Text und Sprache hinaus — in ein einziges Open-Source-Modell, das auf Consumer-Hardware läuft. Im INT4-Modus passt es in eine 24-GB-RTX-4090 und kostet auf Clore.ai weniger als einen Dollar pro Tag. Mit Apache-2.0-Lizenzierung und einer OpenAI-kompatiblen API über vLLM lässt es sich direkt in bestehende Pipelines integrieren.

**→** [**Mieten Sie eine RTX 4090 auf Clore.ai**](https://clore.ai/marketplace) und stellen Sie Qwen3.5-Omni noch heute bereit.


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-de/sprachmodelle/qwen35-omni.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.