# MiniMax Speech 2.6

{% hint style="success" %}
**Выпущено:** 4 марта 2026 г. — MiniMax только что выпустил Speech 2.6 с ультранизкой задержкой, улучшенной обработкой форматов и естественным голосом для сценариев голосовых агентов в реальном времени.
{% endhint %}

**MiniMax Speech 2.6** — передовая модель синтеза речи, предназначенная для приложений голосовых агентов в реальном времени. Она обеспечивает ультранизкую сквозную задержку, улучшенную обработку аудиоформатов (MP3, PCM, WAV, FLAC) и значительно более естественный голос по сравнению с Speech 2.x. Лучше всего используется через API, но может быть интегрирована в локальные конвейеры через MiniMax API.

### Ключевые особенности

| Функция                | Детали                                                  |
| ---------------------- | ------------------------------------------------------- |
| Задержка               | Ультранизкая (< 300 мс TTFB)                            |
| Качество голоса        | Человечный, естественная просодия                       |
| Языки                  | Более 20 языков, включая английский, китайский, русский |
| Выходные форматы       | MP3, PCM, WAV, FLAC                                     |
| Сценарий использования | Голосовые агенты, TTS в реальном времени, стриминг      |
| API                    | REST API, совместимый с OpenAI                          |

### Почему MiniMax Speech 2.6?

* **Задержка < 300 мс** — подходит для агентов для общения в реальном времени
* **Поддержка стриминга** — потоковая передача аудио по токенам для минимальной воспринимаемой задержки
* **Клонирование голоса** — клонирование по коротким аудиопримерам
* **Готово к продакшену** — используется в коммерческих голосовых продуктах MiniMax

***

## Установка: само-хостимый API-прокси на Clore.ai

MiniMax Speech 2.6 в настоящее время основан на API. Вы можете запустить лёгкий прокси на FastAPI на небольшом сервере Clore.ai (даже только с CPU), чтобы интегрировать его в ваш конвейер:

```yaml
version: "3.8"
services:
  minimax-proxy:
    image: python:3.11-slim
    ports:
      - "8080:8080"
    environment:
      - MINIMAX_API_KEY=${MINIMAX_API_KEY}
      - MINIMAX_GROUP_ID=${MINIMAX_GROUP_ID}
    volumes:
      - ./app:/app
    command: >
      sh -c "pip install fastapi uvicorn httpx python-dotenv &&
             uvicorn app.main:app --host 0.0.0.0 --port 8080"
```

### Минимальный FastAPI-прокси (`app/main.py`)

```python
import os, httpx
from fastapi import FastAPI
from fastapi.responses import StreamingResponse
from pydantic import BaseModel

app = FastAPI()

MINIMAX_API_KEY = os.environ["MINIMAX_API_KEY"]
MINIMAX_GROUP_ID = os.environ["MINIMAX_GROUP_ID"]
BASE_URL = "https://api.minimax.io/v1"

class TTSRequest(BaseModel):
    text: str
    voice_id: str = "Calm_Woman"
    speed: float = 1.0
    output_format: str = "mp3"

@app.post("/tts")
async def text_to_speech(req: TTSRequest):
    """Прокси к MiniMax Speech 2.6"""
    async with httpx.AsyncClient(timeout=30) as client:
        response = await client.post(
            f"{BASE_URL}/t2a_v2?GroupId={MINIMAX_GROUP_ID}",
            headers={"Authorization": f"Bearer {MINIMAX_API_KEY}"},
            json={
                "model": "speech-02-hd",
                "text": req.text,
                "stream": False,
                "voice_setting": {
                    "voice_id": req.voice_id,
                    "speed": req.speed,
                    "vol": 1.0,
                    "pitch": 0
                },
                "audio_setting": {
                    "sample_rate": 32000,
                    "bitrate": 128000,
                    "format": req.output_format
                }
            }
        )
    data = response.json()
    audio_b64 = data["data"]["audio"]
    import base64
    audio_bytes = base64.b64decode(audio_b64)
    return StreamingResponse(
        iter([audio_bytes]),
        media_type=f"audio/{req.output_format}"
    )

@app.get("/health")
async def health():
    return {"status": "ok", "model": "minimax-speech-2.6"}
```

### Использование

```bash
# Тестирование TTS-эндпойнта
curl -X POST http://localhost:8080/tts \
  -H "Content-Type: application/json" \
  -d '{"text": "Hello! This is MiniMax Speech 2.6 running on Clore.", "voice_id": "Calm_Woman"}' \
  --output output.mp3

# Воспроизвести результат
ffplay output.mp3
```

***

## Прямое использование API (сервер не требуется)

Если вам нужен TTS прямо в скриптах:

```python
import requests, base64, os

API_KEY = os.environ["MINIMAX_API_KEY"]
GROUP_ID = os.environ["MINIMAX_GROUP_ID"]

def synthesize(text: str, voice_id: str = "Calm_Woman") -> bytes:
    resp = requests.post(
        f"https://api.minimax.io/v1/t2a_v2?GroupId={GROUP_ID}",
        headers={"Authorization": f"Bearer {API_KEY}"},
        json={
            "model": "speech-02-hd",
            "text": text,
            "stream": False,
            "voice_setting": {"voice_id": voice_id, "speed": 1.0, "vol": 1.0, "pitch": 0},
            "audio_setting": {"sample_rate": 32000, "bitrate": 128000, "format": "mp3"}
        }
    )
    return base64.b64decode(resp.json()["data"]["audio"])

audio = synthesize("Running AI workloads on Clore.ai is incredibly affordable.")
with open("output.mp3", "wb") as f:
    f.write(audio)
```

***

## Доступные идентификаторы голосов

| Идентификатор голоса | Характер           | Лучшее применение             |
| -------------------- | ------------------ | ----------------------------- |
| `Calm_Woman`         | Спокойная женщина  | Ассистенты, озвучивание       |
| `Energetic_Man`      | Энергичный мужчина | Маркетинг, новости            |
| `Gentle_Man`         | Нежный мужчина     | Аудиокниги, учебные материалы |
| `Cute_Girl`          | Молодая девушка    | Развлечения                   |
| `Deep_Voice_Man`     | Глубокий мужчина   | Документальные фильмы         |

***

## Требования к GPU на Clore.ai

{% hint style="info" %}
MiniMax Speech 2.6 — модель, основанная на API — для её использования GPU не требуется. Небольшого сервера Clore.ai только с CPU (≈ $0.10–0.30/день) достаточно для запуска прокси. Объединяйте с другими GPU-задачами на том же сервере для максимальной эффективности.
{% endhint %}

| Тип сервера         | Сценарий использования        | Стоимость на Clore.ai |
| ------------------- | ----------------------------- | --------------------- |
| Только CPU (2 vCPU) | Прокси + шлюз API             | \~$0.10–0.20/день     |
| RTX 3060            | Прокси + локальные GPU-задачи | \~$0.37/день          |
| RTX 4090            | Прокси + тяжёлая GPU-работа   | \~$2.10/день          |

***

## Проброс портов Clore.ai

| Порт | Сервис             |
| ---- | ------------------ |
| 8080 | FastAPI TTS-прокси |

***

## Альтернативы на Clore.ai

Если вам нужно **полностью локальное** TTS без вызовов API:

| Модель     | VRAM | Качество | Скорость     | Руководство                                                        |
| ---------- | ---- | -------- | ------------ | ------------------------------------------------------------------ |
| Kokoro TTS | 4GB  | ⭐⭐⭐⭐     | Быстро       | [Kokoro TTS](/guides/guides_v2-ru/audio-i-golos/kokoro-tts.md)     |
| F5-TTS     | 8GB  | ⭐⭐⭐⭐⭐    | Средне       | [F5-TTS](/guides/guides_v2-ru/audio-i-golos/f5-tts.md)             |
| Chatterbox | 6GB  | ⭐⭐⭐⭐     | Быстро       | [Chatterbox](/guides/guides_v2-ru/audio-i-golos/chatterbox-tts.md) |
| Qwen3-TTS  | 8GB  | ⭐⭐⭐⭐⭐    | Средне       | [Qwen3-TTS](/guides/guides_v2-ru/audio-i-golos/qwen3-tts.md)       |
| Kani-TTS-2 | 3GB  | ⭐⭐⭐      | Очень быстро | [Kani-TTS](/guides/guides_v2-ru/audio-i-golos/kani-tts.md)         |

***

## Ссылки

* **Документация MiniMax API:** [platform.minimax.io/docs](https://platform.minimax.io/docs)
* **Публикация в блоге о Speech 2.6:** [minimax.io/news/minimax-speech-26](https://www.minimax.io/news/minimax-speech-26)
* **Маркетплейс Clore.ai:** [clore.ai/marketplace](https://clore.ai/marketplace)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-ru/audio-i-golos/minimax-speech.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
