> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/qwen35-omni.md).

# Qwen3.5-Omni (мультимодальная)

Alibaba's **Qwen3.5-Omni** — это единая сквозная мультимодальная модель, выпущенная 30 марта 2026 года под лицензией Apache 2.0. Она может одновременно понимать и рассуждать на основе текста, аудио, изображений и видео — и генерировать в качестве вывода как текст, так и речь. Запуск на арендованной GPU Clore.ai даёт вам мультимодального ассистента промышленного уровня за долю стоимости облачных API.

***

## Что такое Qwen3.5-Omni?

Qwen3.5-Omni — это **сквозная мультимодальная модель** построенная на разреженной архитектуре Mixture-of-Experts. Релиз на HuggingFace (`Qwen3.5-Omni-7B`) использует соглашение Alibaba о наименованиях, где "7B" обозначает конфигурацию активных параметров на шаг вывода; полный чекпойнт включает все веса экспертов. Именно эта разреженность позволяет развернуть модель на одной RTX 4090 (24 ГБ) с использованием квантования INT4 — модель, которой в противном случае потребовалось бы гораздо больше VRAM при полной точности.

### Ключевые возможности

| Модальность | Вход                         | Выход           |
| ----------- | ---------------------------- | --------------- |
| Текст       | ✅                            | ✅               |
| Аудио       | ✅ (транскрибация, понимание) | ✅ (синтез речи) |
| Изображение | ✅ (понимание, OCR, анализ)   | —               |
| Видео       | ✅ (понимание сцены, Q\&A)    | —               |

В отличие от предыдущих мультимодальных моделей, которые просто объединяют отдельные энкодеры, Qwen3.5-Omni обрабатывает все модальности в едином сквозном проходе. Она может одновременно транскрибировать устную речь, анализировать кадр видео и отвечать как текстом, так и синтезированным голосом — за один вызов инференса.

### Особенности архитектуры

* **Gated Delta Networks (GDN)** для эффективного моделирования последовательностей со сверхквадратичной сложностью на длинных аудио- и видеопотоках
* **Разреженная Mixture-of-Experts** — 30B параметров всего, \~3B активных на токен; сопоставимое качество с плотными моделями 7–14B, но быстрее при масштабировании
* **Единый токенизатор** охватывающий текст, аудиокадры, фрагменты изображений и последовательности видеокадров
* **Встроенный TTS-декодер** — генерирует речевые волны нативно, а не через отдельный конвейер

Выпущено 30 марта 2026 · Лицензия: **Apache 2.0** · [HuggingFace](https://huggingface.co/Qwen/Qwen3.5-Omni-7B)

***

## Qwen3.5-Omni по сравнению со смежными моделями

| Модель                 | Параметры             | Модальности на входе             | Речь на выходе | Лицензия      | VRAM (INT4) |
| ---------------------- | --------------------- | -------------------------------- | -------------- | ------------- | ----------- |
| **Qwen3.5-Omni**       | 30B MoE (3B активных) | Текст, аудио, изображение, видео | ✅              | Apache 2.0    | \~15 ГБ     |
| Qwen3.5 (только текст) | 32B                   | Только текст                     | ❌              | Apache 2.0    | \~18 ГБ     |
| Qwen2.5-VL             | 72B                   | Текст, изображение, видео        | ❌              | Apache 2.0    | \~40 ГБ     |
| Gemini 2.0 Flash       | —                     | Текст, аудио, изображение, видео | ✅              | Проприетарная | Только API  |

По сравнению с **Qwen3.5 (только текст)**, вариант Omni добавляет понимание аудио/видео и генерацию речи, при этом фактически требует *меньше* VRAM при INT4 благодаря архитектуре MoE. По сравнению с **Qwen2.5-VL**, он добавляет аудио-ввод/вывод, но требует гораздо меньше железа.

***

## Требования к оборудованию

| Точность       | Требуемая VRAM | Рекомендуемая GPU        |
| -------------- | -------------- | ------------------------ |
| BF16 (полная)  | 64–80 ГБ       | A100 80GB, H100          |
| BF16 multi-GPU | 2× 40 ГБ       | 2× A40 / 2× A6000        |
| INT4 / GGUF    | \~15 ГБ        | RTX 4090 (24 ГБ) ✅       |
| INT8           | \~30 ГБ        | A6000 48GB, RTX 6000 Ada |

Для большинства сценариев самостоятельного хостинга **INT4 на RTX 4090** — это оптимальный вариант: полный мультимодальный функционал за $0.50–0.80 в день на Clore.ai.

***

## Быстрый старт на Clore.ai

### Шаг 1: Арендуйте GPU

Перейдите на [clore.ai/marketplace](https://clore.ai/marketplace) и арендуйте:

* **INT4 / Single-GPU**: RTX 4090 (24 ГБ) — от **\~$0.50/день**
* **BF16 / Full Precision**: A100 80GB или H100 — от **\~$2.50/день**

Используйте **vllm/vllm-openai** Docker-образ или стандартный CUDA-образ.

### Шаг 2: Разверните с помощью vLLM (рекомендуется)

Для поддержки Qwen3.5-Omni требуется vLLM v0.17.0+.

```bash
# Скачайте и запустите сервер vLLM, совместимый с OpenAI
docker run --gpus all --rm -it \
  -p 8000:8000 \
  -v /workspace/models:/root/.cache/huggingface \
  vllm/vllm-openai:v0.17.0 \
  --model Qwen/Qwen3.5-Omni-7B \
  --quantization awq_marlin \
  --max-model-len 32768 \
  --trust-remote-code
```

> **Примечание:** Флаг `awq_marlin` требует предварительно квантизованную модель AWQ. Скачайте `Qwen/Qwen3.5-Omni-7B-AWQ` вместо базовой модели, или опустите `--quantization` для BF16 на A100/H100.

После запуска сервера он предоставляет API, совместимый с OpenAI, по адресу `http://localhost:8000/v1`.

### Шаг 3: Разверните с помощью Ollama (более простая настройка)

Для быстрого эксперимента без сложности Docker:

```bash
# Установите Ollama
curl -fsSL https://ollama.ai/install.sh | sh

# Скачайте Qwen3.5-Omni (квантованную)
# Примечание: проверьте доступность на https://ollama.com/library — тег может отличаться
ollama pull qwen3.5-omni

# Запустите сервер
ollama serve
```

Ollama автоматически обрабатывает квантование и предоставляет простой `/api/generate` endpoint.

***

## Примеры вызовов API

### Мультимодальный ввод: изображение + текст

```python
import openai
import base64

client = openai.OpenAI(base_url="http://localhost:8000/v1", api_key="none")

# Загрузите изображение
with open("screenshot.png", "rb") as f:
    image_b64 = base64.b64encode(f.read()).decode()

response = client.chat.completions.create(
    model="Qwen/Qwen3.5-Omni-7B",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {"url": f"data:image/png;base64,{image_b64}"}
                },
                {
                    "type": "text",
                    "text": "Опишите, что вы видите на этом изображении, и определите любой текст."
                }
            ]
        }
    ],
    max_tokens=512
)
print(response.choices[0].message.content)
```

### Транскрибация и понимание аудио

```python
import openai
import base64

client = openai.OpenAI(base_url="http://localhost:8000/v1", api_key="none")

with open("meeting_recording.wav", "rb") as f:
    audio_b64 = base64.b64encode(f.read()).decode()

response = client.chat.completions.create(
    model="Qwen/Qwen3.5-Omni-7B",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "audio_url",
                    "audio_url": {"url": f"data:audio/wav;base64,{audio_b64}"}
                },
                {
                    "type": "text",
                    "text": "Расшифруйте это аудио и кратко изложите ключевые моменты."
                }
            ]
        }
    ]
)
print(response.choices[0].message.content)
```

### Понимание видео

```python
# Кадры видео можно передавать как последовательность URL изображений
# или как video_url при использовании нативного API Qwen3.5-Omni
response = client.chat.completions.create(
    model="Qwen/Qwen3.5-Omni-7B",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "video_url",
                    "video_url": {"url": "https://example.com/product-demo.mp4"}
                },
                {
                    "type": "text",
                    "text": "Что происходит в этом видео? Опишите каждую сцену."
                }
            ]
        }
    ]
)
```

***

## Настройка multi-GPU для BF16

Если вы арендуете multi-GPU машину на Clore.ai (например, 2× A40 или 2× A6000), используйте тензорный параллелизм:

```bash
docker run --gpus all --rm -it \
  -p 8000:8000 \
  -v /workspace/models:/root/.cache/huggingface \
  vllm/vllm-openai:v0.17.0 \
  --model Qwen/Qwen3.5-Omni-7B \
  --tensor-parallel-size 2 \
  --dtype bfloat16 \
  --max-model-len 65536 \
  --trust-remote-code
```

Это распределяет модель между обеими GPU для максимальной производительности и качества.

***

## Сценарии использования

### 1. Автоматизация службы поддержки

Qwen3.5-Omni может слушать голосовые звонки клиентов, транскрибировать их в реальном времени, понимать проблему и генерировать как текстовое резюме, так и устный ответ. Всё в одной модели, без склейки отдельных конвейеров ASR + LLM + TTS.

### 2. Понимание видеоконтента

Загружайте видео с демонстрацией продукта, записи лекций или кадры наблюдения и получайте подробные текстовые описания, сводки с временными метками или Q\&A. Модель обрабатывает контекст до 32K токенов, охватывая видео длительностью в несколько минут.

### 3. Голосовые агенты в реальном времени

Создавайте разговорных голосовых ассистентов, которые понимают контекст между аудио-ходами. Qwen3.5-Omni сохраняет память беседы и может чередовать свои текстовые рассуждения с генерацией речи — идеально для ботов поддержки клиентов по телефону.

### 4. Анализ документов + скриншотов

OCR, понимание макета, интерпретация графиков — передавайте скриншоты дашбордов, PDF-файлы или рукописные заметки и получайте структурированный текстовый вывод или подробный анализ.

### 5. Мультиязычная обработка аудио

Модель поддерживает 29 языков как для текста, так и для речи, что делает её подходящей для международной поддержки клиентов, мультиязычных конвейеров транскрибации и кросс-лингвального анализа видео.

***

## Оценка стоимости на Clore.ai

| GPU          | Точность             | VRAM    | Цена/день | Лучше всего подходит для                               |
| ------------ | -------------------- | ------- | --------- | ------------------------------------------------------ |
| RTX 4090     | INT4                 | 24 ГБ   | \~$0.50   | Разработка, тестирование, мелкомасштабное производство |
| RTX 6000 Ada | INT8                 | 48 ГБ   | \~$1.20   | Лучшее качество, умеренная производительность          |
| A100 80GB    | BF16                 | 80 ГБ   | \~$2.50   | Полное качество, высокая производительность            |
| 2× A40       | BF16 tensor parallel | 2×48 ГБ | \~$2.00   | Полное качество, экономично                            |

Запуск Qwen3.5-Omni в INT4 на RTX 4090 обходится в день дешевле, чем один вызов API OpenAI для сложной мультимодальной задачи в масштабе.

***

## Советы и устранение неполадок

**"CUDA out of memory" на RTX 4090**

* Добавьте `--gpu-memory-utilization 0.90` в команду vLLM
* Уменьшите `--max-model-len` до 16384, если обрабатываете короткие входы

**Аудиовход не работает**

* Убедитесь, что версия vLLM точно `v0.17.0` или новее — более ранние версии не поддерживают аудио Omni
* Файлы WAV для наилучших результатов должны быть mono 16 кГц; используйте `ffmpeg -ar 16000 -ac 1` для конвертации

**Медленный первый инференс**

* vLLM компилирует CUDA-ядра при первом запуске; прогрев занимает 2–5 минут. Последующие вызовы быстрые.

**Ollama не распознаёт видеовход**

* В настоящее время Ollama поддерживает только image+text и audio; для понимания видео используйте развертывание vLLM.

***

## Итог

Qwen3.5-Omni приносит настоящий сквозной мультимодальный ИИ — текст, аудио, изображение и видео на входе, текст и речь на выходе — в виде одной open-source модели, работающей на потребительском оборудовании. В INT4 она помещается в RTX 4090 с 24 ГБ и стоит менее доллара в день на Clore.ai. Благодаря лицензии Apache 2.0 и API, совместимому с OpenAI, через vLLM, она легко встраивается в существующие конвейеры.

**→** [**Арендуйте RTX 4090 на Clore.ai**](https://clore.ai/marketplace) и разверните Qwen3.5-Omni уже сегодня.


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/qwen35-omni.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.