# MiniMax Speech 2.6

{% hint style="success" %}
**发布：** 2026年3月4日 — MiniMax 刚刚发布了 Speech 2.6，具有超低延迟、增强的格式处理以及用于实时语音代理场景的类人声音。
{% endhint %}

**MiniMax Speech 2.6** 是一款为实时语音代理应用设计的先进文本转语音模型。其特点是超低端到端延迟、改进的音频格式处理（MP3、PCM、WAV、FLAC），以及相比 Speech 2.x 明显更自然的语音。最佳通过 API 使用，但也可以通过 MiniMax API 集成到自托管管道中。

### 主要特性

| 特性   | 详情                   |
| ---- | -------------------- |
| 延迟   | 超低（< 300ms TTFB）     |
| 语音质量 | 类人，自然的韵律             |
| 语言   | 20+ 种语言，包括英语、中文、俄语   |
| 输出格式 | MP3、PCM、WAV、FLAC     |
| 使用场景 | 语音代理、实时 TTS、流式传输     |
| API  | 兼容 OpenAI 的 REST API |

### 为什么选择 MiniMax Speech 2.6？

* **低于 300ms 的延迟** — 适合实时对话代理
* **流式支持** — 逐令牌音频流以实现最低感知延迟
* **语音克隆** — 可从短音频样本克隆
* **面向生产** — 驱动 MiniMax 自有的商业语音产品

***

## 设置：在 Clore.ai 上自托管 API 代理

MiniMax Speech 2.6 当前基于 API。您可以在一个小型 Clore.ai 服务器（即使仅 CPU）上运行轻量级 FastAPI 代理，将其集成到您的管道中：

```yaml
version: "3.8"
services:
  minimax-proxy:
    image: python:3.11-slim
    ports:
      - "8080:8080"
    environment:
      - MINIMAX_API_KEY=${MINIMAX_API_KEY}
      - MINIMAX_GROUP_ID=${MINIMAX_GROUP_ID}
    volumes:
      - ./app:/app
    command: >
      sh -c "pip install fastapi uvicorn httpx python-dotenv &&
             uvicorn app.main:app --host 0.0.0.0 --port 8080"
```

### 最小 FastAPI 代理（`app/main.py`)

```python
import os, httpx
from fastapi import FastAPI
from fastapi.responses import StreamingResponse
from pydantic import BaseModel

app = FastAPI()

MINIMAX_API_KEY = os.environ["MINIMAX_API_KEY"]
MINIMAX_GROUP_ID = os.environ["MINIMAX_GROUP_ID"]
BASE_URL = "https://api.minimax.io/v1"

class TTSRequest(BaseModel):
    text: str
    voice_id: str = "Calm_Woman"
    speed: float = 1.0
    output_format: str = "mp3"

@app.post("/tts")
async def text_to_speech(req: TTSRequest):
    """代理到 MiniMax Speech 2.6"""
    async with httpx.AsyncClient(timeout=30) as client:
        response = await client.post(
            f"{BASE_URL}/t2a_v2?GroupId={MINIMAX_GROUP_ID}",
            headers={"Authorization": f"Bearer {MINIMAX_API_KEY}"},
            json={
                "model": "speech-02-hd",
                "text": req.text,
                "stream": False,
                "voice_setting": {
                    "voice_id": req.voice_id,
                    "speed": req.speed,
                    "vol": 1.0,
                    "pitch": 0
                },
                "audio_setting": {
                    "sample_rate": 32000,
                    "bitrate": 128000,
                    "format": req.output_format
                }
            }
        )
    data = response.json()
    audio_b64 = data["data"]["audio"]
    import base64
    audio_bytes = base64.b64decode(audio_b64)
    return StreamingResponse(
        iter([audio_bytes]),
        media_type=f"audio/{req.output_format}"
    )

@app.get("/health")
async def health():
    return {"status": "ok", "model": "minimax-speech-2.6"}
```

### 用法

```bash
# 测试 TTS 端点
curl -X POST http://localhost:8080/tts \
  -H "Content-Type: application/json" \
  -d '{"text": "Hello! This is MiniMax Speech 2.6 running on Clore.", "voice_id": "Calm_Woman"}' \
  --output output.mp3

# 播放结果
ffplay output.mp3
```

***

## 直接使用 API（无需服务器）

如果你只需要在脚本中使用 TTS：

```python
import requests, base64, os

API_KEY = os.environ["MINIMAX_API_KEY"]
GROUP_ID = os.environ["MINIMAX_GROUP_ID"]

def synthesize(text: str, voice_id: str = "Calm_Woman") -> bytes:
    resp = requests.post(
        f"https://api.minimax.io/v1/t2a_v2?GroupId={GROUP_ID}",
        headers={"Authorization": f"Bearer {API_KEY}"},
        json={
            "model": "speech-02-hd",
            "text": text,
            "stream": False,
            "voice_setting": {"voice_id": voice_id, "speed": 1.0, "vol": 1.0, "pitch": 0},
            "audio_setting": {"sample_rate": 32000, "bitrate": 128000, "format": "mp3"}
        }
    )
    return base64.b64decode(resp.json()["data"]["audio"])

audio = synthesize("在 Clore.ai 上运行 AI 工作负载的成本非常低廉。")
with open("output.mp3", "wb") as f:
    f.write(audio)
```

***

## 可用的语音 ID

| 语音 ID            | 角色      | 最佳用途   |
| ---------------- | ------- | ------ |
| `Calm_Woman`     | 沉稳女性    | 助手、旁白  |
| `Energetic_Man`  | 充满活力的男性 | 营销、新闻  |
| `Gentle_Man`     | 温和的男性   | 有声书、教程 |
| `Cute_Girl`      | 年轻女性    | 娱乐     |
| `Deep_Voice_Man` | 低沉男性    | 纪录片    |

***

## Clore.ai 上的 GPU 要求

{% hint style="info" %}
MiniMax Speech 2.6 是基于 API 的模型 — 使用它不需要 GPU。一个小型的仅 CPU 的 Clore.ai 服务器（$0.10–0.30/天）就足以运行代理。可以将其与同一服务器上的其他 GPU 工作负载结合以实现最高效率。
{% endhint %}

| 服务器类型         | 使用场景           | Clore.ai 成本    |
| ------------- | -------------- | -------------- |
| 仅 CPU（2 vCPU） | 代理 + API 网关    | \~$0.10–0.20/天 |
| RTX 3060      | 代理 + 本地 GPU 任务 | \~$0.37/天      |
| RTX 4090      | 代理 + 重度 GPU 工作 | \~$2.10/天      |

***

## Clore.ai 端口转发

| 端口   | 服务             |
| ---- | -------------- |
| 8080 | FastAPI TTS 代理 |

***

## Clore.ai 上的替代方案

如果你需要 **完全本地** 无需调用 API 的 TTS：

| 模型         | 显存  | 质量    | 速度  | 指南                                                                                       |
| ---------- | --- | ----- | --- | ---------------------------------------------------------------------------------------- |
| Kokoro TTS | 4GB | ⭐⭐⭐⭐  | 快速  | [Kokoro TTS](https://docs.clore.ai/guides/guides_v2-zh/yin-pin-yu-yu-yin/kokoro-tts)     |
| F5-TTS     | 8GB | ⭐⭐⭐⭐⭐ | 中等  | [F5-TTS](https://docs.clore.ai/guides/guides_v2-zh/yin-pin-yu-yu-yin/f5-tts)             |
| Chatterbox | 6GB | ⭐⭐⭐⭐  | 快速  | [Chatterbox](https://docs.clore.ai/guides/guides_v2-zh/yin-pin-yu-yu-yin/chatterbox-tts) |
| Qwen3-TTS  | 8GB | ⭐⭐⭐⭐⭐ | 中等  | [Qwen3-TTS](https://docs.clore.ai/guides/guides_v2-zh/yin-pin-yu-yu-yin/qwen3-tts)       |
| Kani-TTS-2 | 3GB | ⭐⭐⭐   | 非常快 | [Kani-TTS](https://docs.clore.ai/guides/guides_v2-zh/yin-pin-yu-yu-yin/kani-tts)         |

***

## 链接

* **MiniMax API 文档：** [platform.minimax.io/docs](https://platform.minimax.io/docs)
* **Speech 2.6 博客文章：** [minimax.io/news/minimax-speech-26](https://www.minimax.io/news/minimax-speech-26)
* **Clore.ai 市场：** [clore.ai/marketplace](https://clore.ai/marketplace)
