> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/qwen35-omni.md).

# Qwen3.5-Omni (multimodal)

d'Alibaba **Qwen3.5-Omni** est un modèle multimodal unifié de bout en bout, publié le 30 mars 2026 sous licence Apache 2.0. Il peut comprendre et raisonner simultanément sur le texte, l'audio, les images et la vidéo — et générer à la fois du texte et de la parole en sortie. L'exécuter sur un GPU Clore.ai loué vous offre un assistant multimodal de niveau production pour une fraction du coût des API cloud.

***

## Qu'est-ce que Qwen3.5-Omni ?

Qwen3.5-Omni est un **modèle multimodal de bout en bout** construit sur une architecture clairsemée de type Mixture-of-Experts. La version HuggingFace (`Qwen3.5-Omni-7B`) utilise la convention de nommage d'Alibaba, où « 7B » fait référence à la configuration des paramètres actifs par étape d'inférence ; le point de contrôle complet inclut tous les poids des experts. C'est cette parcimonie qui permet son déploiement sur une seule RTX 4090 (24 Go) avec une quantification INT4 — un modèle qui nécessiterait autrement bien plus de VRAM en précision complète.

### Capacités clés

| Modalité | Entrée                             | Sortie              |
| -------- | ---------------------------------- | ------------------- |
| Texte    | ✅                                  | ✅                   |
| Audio    | ✅ (transcription, compréhension)   | ✅ (synthèse vocale) |
| Image    | ✅ (compréhension, OCR, analyse)    | —                   |
| Vidéo    | ✅ (compréhension des scènes, Q\&R) | —                   |

Contrairement aux modèles multimodaux précédents qui assemblent des encodeurs séparés, Qwen3.5-Omni traite toutes les modalités en un seul passage avant unifié. Il peut simultanément transcrire un audio parlé, analyser une image vidéo et répondre à la fois par texte et avec une voix synthétisée — en un seul appel d'inférence.

### Points forts de l'architecture

* **Réseaux Delta à porte (GDN)** pour une modélisation efficace des séquences avec une complexité sous-quadratique sur les longs flux audio/vidéo
* **Mixture-of-Experts clairsemé** — 30B de paramètres au total, \~3B actifs par jeton ; qualité comparable à des modèles denses de 7 à 14B, mais plus rapides à grande échelle
* **Tokenizer unifié** couvrant le texte, les trames audio, les patchs d'image et les séquences d'images vidéo
* **Décodeur TTS intégré** — génère nativement des formes d'onde vocales plutôt que via un pipeline séparé

Publié le 30 mars 2026 · Licence : **Apache 2.0** · [HuggingFace](https://huggingface.co/Qwen/Qwen3.5-Omni-7B)

***

## Qwen3.5-Omni par rapport aux modèles associés

| Modèle                     | Paramètres          | Modalités en entrée        | Sortie vocale | Licence      | VRAM (INT4)    |
| -------------------------- | ------------------- | -------------------------- | ------------- | ------------ | -------------- |
| **Qwen3.5-Omni**           | 30B MoE (3B actifs) | Texte, audio, image, vidéo | ✅             | Apache 2.0   | \~15 Go        |
| Qwen3.5 (texte uniquement) | 32B                 | Texte uniquement           | ❌             | Apache 2.0   | \~18 Go        |
| Qwen2.5-VL                 | 72B                 | Texte, image, vidéo        | ❌             | Apache 2.0   | \~40 Go        |
| Gemini 2.0 Flash           | —                   | Texte, audio, image, vidéo | ✅             | Propriétaire | API uniquement |

Comparé à **Qwen3.5 (texte uniquement)**, la variante Omni ajoute la compréhension de l'audio et de la vidéo ainsi que la génération vocale tout en nécessitant en réalité *moins* de VRAM en INT4 grâce à l'architecture MoE. Comparé à **Qwen2.5-VL**, elle ajoute l'entrée/sortie audio mais requiert beaucoup moins de matériel.

***

## Exigences matérielles

| Précision      | VRAM requise | GPU recommandé            |
| -------------- | ------------ | ------------------------- |
| BF16 (complet) | 64–80 Go     | A100 80 Go, H100          |
| BF16 multi-GPU | 2× 40 Go     | 2× A40 / 2× A6000         |
| INT4 / GGUF    | \~15 Go      | RTX 4090 (24 Go) ✅        |
| INT8           | \~30 Go      | A6000 48 Go, RTX 6000 Ada |

Pour la plupart des cas d'utilisation auto-hébergés, **INT4 sur une RTX 4090** est le point idéal : pleine capacité multimodale pour 0,50 à 0,80 $/jour sur Clore.ai.

***

## Démarrage rapide sur Clore.ai

### Étape 1 : louer un GPU

Allez sur [clore.ai/marketplace](https://clore.ai/marketplace) et louez :

* **INT4 / GPU unique**: RTX 4090 (24 Go) — à partir de **\~0,50 $/jour**
* **BF16 / précision complète**: A100 80 Go ou H100 — à partir de **\~2,50 $/jour**

Utilisez l'image Docker **vllm/vllm-openai** ou l'image CUDA standard.

### Étape 2 : déployer avec vLLM (recommandé)

vLLM v0.17.0+ est requis pour la prise en charge de Qwen3.5-Omni.

```bash
# Récupérer et lancer le serveur vLLM compatible OpenAI
docker run --gpus all --rm -it \
  -p 8000:8000 \
  -v /workspace/models:/root/.cache/huggingface \
  vllm/vllm-openai:v0.17.0 \
  --model Qwen/Qwen3.5-Omni-7B \
  --quantization awq_marlin \
  --max-model-len 32768 \
  --trust-remote-code
```

> **Remarque :** Le `awq_marlin` indicateur nécessite un modèle AWQ déjà quantifié. Téléchargez `Qwen/Qwen3.5-Omni-7B-AWQ` au lieu du modèle de base, ou omettez `--quantization` pour du BF16 sur A100/H100.

Une fois le serveur en cours d'exécution, il expose une API compatible OpenAI à `http://localhost:8000/v1`.

### Étape 3 : déployer avec Ollama (configuration plus simple)

Pour des expérimentations rapides sans la complexité de Docker :

```bash
# Installer Ollama
curl -fsSL https://ollama.ai/install.sh | sh

# Récupérer Qwen3.5-Omni (quantifié)
# Remarque : vérifiez la disponibilité sur https://ollama.com/library — le tag peut varier
ollama pull qwen3.5-omni

# Démarrer le serveur
ollama serve
```

Ollama gère automatiquement la quantification et fournit un simple `/api/generate` point de terminaison.

***

## Exemples d'appels API

### Entrée multimodale : image + texte

```python
import openai
import base64

client = openai.OpenAI(base_url="http://localhost:8000/v1", api_key="none")

# Charger une image
with open("screenshot.png", "rb") as f:
    image_b64 = base64.b64encode(f.read()).decode()

response = client.chat.completions.create(
    model="Qwen/Qwen3.5-Omni-7B",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {"url": f"data:image/png;base64,{image_b64}"}
                },
                {
                    "type": "text",
                    "text": "Décrivez ce que vous voyez dans cette image et identifiez tout texte."
                }
            ]
        }
    ],
    max_tokens=512
)
print(response.choices[0].message.content)
```

### Transcription audio + compréhension

```python
import openai
import base64

client = openai.OpenAI(base_url="http://localhost:8000/v1", api_key="none")

with open("meeting_recording.wav", "rb") as f:
    audio_b64 = base64.b64encode(f.read()).decode()

response = client.chat.completions.create(
    model="Qwen/Qwen3.5-Omni-7B",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "audio_url",
                    "audio_url": {"url": f"data:audio/wav;base64,{audio_b64}"}
                },
                {
                    "type": "text",
                    "text": "Transcrivez cet audio et résumez les points clés."
                }
            ]
        }
    ]
)
print(response.choices[0].message.content)
```

### Compréhension vidéo

```python
# Les images de la vidéo peuvent être passées sous forme de séquence d'URL d'images
# ou comme video_url lors de l'utilisation de l'API native de Qwen3.5-Omni
response = client.chat.completions.create(
    model="Qwen/Qwen3.5-Omni-7B",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "video_url",
                    "video_url": {"url": "https://example.com/product-demo.mp4"}
                },
                {
                    "type": "text",
                    "text": "Que se passe-t-il dans cette vidéo ? Décrivez chaque scène."
                }
            ]
        }
    ]
)
```

***

## Configuration multi-GPU pour BF16

Si vous louez une machine multi-GPU sur Clore.ai (par ex. 2× A40 ou 2× A6000), utilisez le parallélisme tensoriel :

```bash
docker run --gpus all --rm -it \
  -p 8000:8000 \
  -v /workspace/models:/root/.cache/huggingface \
  vllm/vllm-openai:v0.17.0 \
  --model Qwen/Qwen3.5-Omni-7B \
  --tensor-parallel-size 2 \
  --dtype bfloat16 \
  --max-model-len 65536 \
  --trust-remote-code
```

Cela répartit le modèle sur les deux GPU pour un débit et une qualité maximaux.

***

## Cas d'utilisation

### 1. Automatisation du service client

Qwen3.5-Omni peut écouter les appels vocaux des clients, les transcrire en temps réel, comprendre le problème et générer à la fois un résumé textuel et une réponse vocale. Le tout dans un seul modèle, sans assembler séparément des pipelines ASR + LLM + TTS.

### 2. Compréhension de contenu vidéo

Importez des vidéos de démonstration de produits, des enregistrements de cours ou des séquences de surveillance et obtenez des descriptions textuelles détaillées, des résumés horodatés ou des Q\&R. Le modèle gère jusqu'à 32K jetons de contexte, couvrant des vidéos de plusieurs minutes.

### 3. Agents vocaux en temps réel

Créez des assistants vocaux conversationnels qui comprennent le contexte à travers les tours audio. Qwen3.5-Omni conserve la mémoire conversationnelle et peut alterner son raisonnement textuel avec la génération vocale — idéal pour les bots de support client téléphonique.

### 4. Analyse de documents + captures d'écran

OCR, compréhension de la mise en page, interprétation de graphiques — importez des captures d'écran de tableaux de bord, des PDF ou des notes manuscrites et obtenez une sortie textuelle structurée ou une analyse détaillée.

### 5. Traitement audio multilingue

Le modèle prend en charge 29 langues pour le texte et la parole, ce qui le rend adapté au support client international, aux pipelines de transcription multilingues et à l'analyse vidéo interlinguistique.

***

## Estimation des coûts sur Clore.ai

| GPU          | Précision                   | VRAM    | Prix/jour | Idéal pour                                        |
| ------------ | --------------------------- | ------- | --------- | ------------------------------------------------- |
| RTX 4090     | INT4                        | 24 Go   | \~$0.50   | Développement, tests, production à petite échelle |
| RTX 6000 Ada | INT8                        | 48 Go   | \~$1.20   | Meilleure qualité, débit modéré                   |
| A100 80 Go   | BF16                        | 80 Go   | \~$2.50   | Qualité complète, débit élevé                     |
| 2× A40       | Parallélisme tensoriel BF16 | 2×48 Go | \~$2.00   | Qualité complète, rentable                        |

Faire tourner Qwen3.5-Omni en INT4 sur une RTX 4090 coûte moins cher par jour qu'un seul appel API OpenAI pour une tâche multimodale complexe à grande échelle.

***

## Conseils et dépannage

**« CUDA out of memory » sur RTX 4090**

* Ajoutez `--gpu-memory-utilization 0.90` à la commande vLLM
* Réduisez `--max-model-len` à 16384 si vous traitez des entrées courtes

**Entrée audio ne fonctionne pas**

* Assurez-vous que la version de vLLM est exactement `v0.17.0` ou plus récente — les versions antérieures ne prennent pas en charge l'audio Omni
* Les fichiers WAV doivent être en mono 16 kHz pour de meilleurs résultats ; utilisez `ffmpeg -ar 16000 -ac 1` pour convertir

**Première inférence lente**

* vLLM compile les noyaux CUDA lors du premier lancement ; le préchauffage prend 2 à 5 minutes. Les appels suivants sont rapides.

**Ollama ne reconnaît pas l'entrée vidéo**

* Ollama prend actuellement en charge uniquement image+texte et audio ; pour la compréhension vidéo, utilisez le déploiement vLLM.

***

## Résumé

Qwen3.5-Omni apporte une véritable IA multimodale de bout en bout — texte, audio, image et vidéo en entrée, texte et parole en sortie — dans un seul modèle open source qui fonctionne sur du matériel grand public. En INT4, il tient dans une RTX 4090 de 24 Go et coûte moins d'un dollar par jour sur Clore.ai. Avec la licence Apache 2.0 et une API compatible OpenAI via vLLM, il s'intègre directement dans les pipelines existants.

**→** [**Louez une RTX 4090 sur Clore.ai**](https://clore.ai/marketplace) et déployez Qwen3.5-Omni dès aujourd'hui.


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-fr/modeles-de-langage/qwen35-omni.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.