> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-ru/audio-i-golos/voxtral-tts.md).

# Voxtral TTS

> **Модель Mistral с открытыми весами для преобразования текста в речь: 4 млрд параметров, 9 языков, клонирование голоса zero-shot, всего 3 ГБ VRAM.**

| Параметр                | Значение                                                                                                |
| ----------------------- | ------------------------------------------------------------------------------------------------------- |
| **Разработчик**         | Mistral AI                                                                                              |
| **Параметры**           | 4 миллиарда                                                                                             |
| **Архитектура**         | TTS только на декодере                                                                                  |
| **Языки**               | 9 (английский, французский, немецкий, испанский, хинди, арабский, португальский, итальянский, японский) |
| **Лицензия**            | Apache 2.0 (открытые веса)                                                                              |
| **VRAM**                | \~3 ГБ (FP16)                                                                                           |
| **Задержка**            | 70 мс для вывода длиной 10 секунд                                                                       |
| **Клонирование голоса** | Zero-shot по эталону длиной 3 секунды                                                                   |
| **Релиз**               | 26 марта 2026 г.                                                                                        |

## Почему Voxtral TTS?

Voxtral TTS — это ответ Mistral с открытыми весами на ElevenLabs и OpenAI TTS. Ключевые преимущества для пользователей Clore.ai:

* **Работает на любом GPU** — всего 3 ГБ VRAM означают, что даже RTX 3060 работает отлично
* **Без API-платежей** — self-hosted = неограниченный синтез без переменных затрат
* **Конфиденциальность данных** — аудио никогда не покидает вашу машину
* **Клонирование zero-shot** — клонируйте любой голос по 3 секундам референсного аудио
* **9 языков нативно** — включая хинди и арабский, которых часто нет у конкурентов
* **Скорость в реальном времени** — RTF 0,1–0,2× на RTX 4070+ (10-секундный фрагмент за 1–2 секунды)

## Требования к GPU на Clore.ai

| GPU           | VRAM  | Производительность                       | Цена на Clore.ai |
| ------------- | ----- | ---------------------------------------- | ---------------- |
| RTX 3060 12GB | 12 ГБ | ✅ Хорошо — 3–4× в реальном времени       | от $0,10/день    |
| RTX 3090 24GB | 24 ГБ | ✅ Отлично — пакетная обработка           | от $0,30/день    |
| RTX 4070 12GB | 12 ГБ | ✅ Превосходно — 5–10× в реальном времени | от $0,25/день    |
| RTX 4090 24GB | 24 ГБ | ✅ Избыточно — задержка менее секунды     | от $0,50/день    |

> **Рекомендация:** RTX 3060 12GB ($0,10/день на Clore.ai) — оптимальный вариант для большинства сценариев. Voxtral требует всего 3 ГБ VRAM, поэтому его можно запускать вместе с другими моделями.

## Быстрый старт на Clore.ai

### Шаг 1: Арендуйте GPU-сервер

1. Перейдите на [маркетплейс Clore.ai](https://clore.ai/marketplace)
2. Отфильтруйте любой GPU с 8+ ГБ VRAM
3. Выберите **Docker** развертывание
4. Используйте образ: `pytorch/pytorch:2.4.0-cuda12.4-cudnn9-devel`

### Шаг 2: Установите зависимости

```bash
# Подключитесь через SSH или терминал Jupyter
pip install torch torchaudio transformers accelerate

# Установите пакет Voxtral TTS
pip install voxtral-tts

# Или используйте HuggingFace напрямую
pip install huggingface_hub
huggingface-cli download mistralai/Voxtral-TTS --local-dir ./voxtral-tts
```

### Шаг 3: Базовый синтез текста в речь

```python
from voxtral import VoxtralTTS

# Инициализируйте модель (веса ~6 ГБ загрузятся автоматически)
model = VoxtralTTS.from_pretrained("mistralai/Voxtral-TTS")
model.to("cuda")

# Базовый синтез
audio = model.synthesize(
    text="Добро пожаловать на Clore.ai — децентрализованный маркетплейс GPU.",
    language="en"
)
audio.save("output.wav")
print(f"Сгенерировано {audio.duration:.1f} с аудио")
```

### Шаг 4: Клонирование голоса zero-shot

```python
# Клонируйте голос по 3-секундному эталону
audio = model.synthesize(
    text="Это мой клонированный голос, говорящий о вычислениях на GPU.",
    reference_audio="reference_speaker.wav",  # 3+ секунды
    language="en"
)
audio.save("cloned_output.wav")
```

### Шаг 5: Многоязычный синтез

```python
# Синтез в 9 поддерживаемых языках
languages = {
    "en": "Hello, this is Voxtral speaking in English.",
    "fr": "Bonjour, c'est Voxtral qui parle en français.",
    "de": "Hallo, hier spricht Voxtral auf Deutsch.",
    "es": "Hola, Voxtral hablando en español.",
    "hi": "नमस्ते, यह Voxtral हिंदी में बोल रहा है।",
    "ar": "مرحبا، هذا Voxtral يتحدث بالعربية.",
    "pt": "Olá, aqui é o Voxtral falando em português.",
    "it": "Ciao, qui parla Voxtral in italiano.",
    "ja": "こんにちは、Voxtralが日本語で話しています。",
}

for lang, text in languages.items():
    audio = model.synthesize(text=text, language=lang)
    audio.save(f"voxtral_{lang}.wav")
    print(f"[{lang}] Сгенерировано {audio.duration:.1f} с")
```

## Промышленный API-сервер

Разверните Voxtral как REST API для интеграции в ваши приложения:

```python
# server.py — обёртка FastAPI для Voxtral TTS
from fastapi import FastAPI, UploadFile, File
from fastapi.responses import StreamingResponse
from voxtral import VoxtralTTS
import io
import soundfile as sf

app = FastAPI(title="Voxtral TTS API")
model = VoxtralTTS.from_pretrained("mistralai/Voxtral-TTS").to("cuda")

@app.post("/synthesize")
async def synthesize(
    text: str,
    language: str = "en",
    reference: UploadFile = File(None)
):
    kwargs = {"text": text, "language": language}
    if reference:
        ref_bytes = await reference.read()
        kwargs["reference_audio"] = ref_bytes
    
    audio = model.synthesize(**kwargs)
    
    # Возврат в виде WAV-потока
    buffer = io.BytesIO()
    sf.write(buffer, audio.numpy(), samplerate=24000, format="WAV")
    buffer.seek(0)
    
    return StreamingResponse(buffer, media_type="audio/wav")

@app.get("/health")
async def health():
    return {"status": "ok", "model": "voxtral-tts", "languages": 9}
```

```bash
# Запустите API-сервер
pip install fastapi uvicorn python-multipart soundfile
uvicorn server:app --host 0.0.0.0 --port 8000

# Проверьте его
curl -X POST "http://localhost:8000/synthesize?text=Hello%20world&language=en" \
  --output hello.wav
```

## Развертывание в Docker

```dockerfile
FROM pytorch/pytorch:2.4.0-cuda12.4-cudnn9-devel

WORKDIR /app
RUN pip install voxtral-tts fastapi uvicorn python-multipart soundfile

# Предварительно загрузите веса модели
RUN python -c "from voxtral import VoxtralTTS; VoxtralTTS.from_pretrained('mistralai/Voxtral-TTS')"

COPY server.py .
EXPOSE 8000
CMD ["uvicorn", "server:app", "--host", "0.0.0.0", "--port", "8000"]
```

```bash
# Соберите и запустите
docker build -t voxtral-tts-api .
docker run --gpus all -p 8000:8000 voxtral-tts-api
```

## Voxtral против других моделей TTS

| Функция                 | Voxtral TTS  | ElevenLabs   | Qwen3-TTS  | Kokoro TTS | Fish Speech |
| ----------------------- | ------------ | ------------ | ---------- | ---------- | ----------- |
| **Открытые веса**       | ✅ Apache 2.0 | ❌ Только API | ✅          | ✅          | ✅           |
| **VRAM**                | 3 ГБ         | Н/Д (облако) | 8 ГБ       | 2 ГБ       | 4 ГБ        |
| **Языки**               | 9            | 30+          | 50+        | 5          | 8           |
| **Клонирование голоса** | эталон 3 с   | эталон 1 с   | эталон 5 с | ❌          | эталон 10 с |
| **Задержка**            | 70 мс        | \~200 мс     | \~150 мс   | 50 мс      | 100 мс      |
| **Качество**            | ⭐⭐⭐⭐⭐        | ⭐⭐⭐⭐⭐        | ⭐⭐⭐⭐       | ⭐⭐⭐⭐       | ⭐⭐⭐⭐        |
| **Self-hosted**         | ✅            | ❌            | ✅          | ✅          | ✅           |

## Пакетная обработка для крупных проектов

```python
import concurrent.futures
from voxtral import VoxtralTTS

model = VoxtralTTS.from_pretrained("mistralai/Voxtral-TTS").to("cuda")

# Обработайте целую главу аудиокниги
paragraphs = [
    "Глава 1: Начало...",
    "Была тёмная и бурная ночь...",
    "Протагонист сделал шаг вперёд...",
    # ... сотни абзацев
]

def process_paragraph(idx_text):
    idx, text = idx_text
    audio = model.synthesize(text=text, language="en")
    audio.save(f"chapter1_part{idx:04d}.wav")
    return idx

# Последовательная обработка (нагрузка на GPU)
for i, text in enumerate(paragraphs):
    process_paragraph((i, text))
    
print(f"Обработано {len(paragraphs)} абзацев")
```

## Режим потоковой передачи для приложений в реальном времени

```python
# Потоковый синтез для приложений в реальном времени
async def stream_synthesis(text: str, language: str = "en"):
    """Генерировать аудио порциями в потоке для воспроизведения с низкой задержкой."""
    model = VoxtralTTS.from_pretrained("mistralai/Voxtral-TTS").to("cuda")
    
    async for chunk in model.synthesize_stream(
        text=text,
        language=language,
        chunk_size=4096  # ~170 мс на блок при 24 кГц
    ):
        yield chunk.numpy().tobytes()
```

## Устранение неполадок

| Проблема                    | Решение                                                                                                          |
| --------------------------- | ---------------------------------------------------------------------------------------------------------------- |
| OOM на небольшом GPU        | Используйте `model.half()` для FP16 (уменьшает VRAM примерно до 1,5 ГБ)                                          |
| Медленный первый инференс   | Нормально — модель компилирует CUDA-ядра при первом запуске (\~30 с)                                             |
| Низкое качество для языка X | Убедитесь, что указан правильный `язык` параметр; для некоторых языков требуется более длинное референсное аудио |
| Артефакты аудио             | Увеличьте `reference_audio` длину до 5–10 с для лучшего клонирования голоса                                      |
| Не удаётся загрузить модель | Установите `HF_TOKEN` переменную окружения для доступа к защищённой модели                                       |

## Анализ затрат: Voxtral на Clore.ai против облачных TTS

| Сервис                  | 1 млн символов/месяц | Примечания                                                 |
| ----------------------- | -------------------- | ---------------------------------------------------------- |
| ElevenLabs Pro          | $99/мес              | Включено 500 тыс. символов, доплата за превышение          |
| OpenAI TTS              | $15/мес              | $15 за 1 млн символов                                      |
| Google Cloud TTS        | $16/мес              | Стандартные голоса                                         |
| **Voxtral на Clore.ai** | **$3–15/мес**        | RTX 3060 по $0,10–0,50/день, неограниченное число символов |

> **Итог:** Самостоятельный хостинг Voxtral на Clore.ai в 6–30 раз дешевле облачных TTS API, без ограничений на количество символов и с полной конфиденциальностью данных.

## Дополнительное чтение

* [Voxtral TTS на HuggingFace](https://huggingface.co/mistralai/Voxtral-TTS)
* [Блог Mistral AI — анонс Voxtral](https://mistral.ai/news/voxtral-tts)
* [Сравните модели TTS на Clore.ai](/guides/guides_v2-ru/sravneniya/tts-comparison.md)
* [Другие руководства по аудио и голосу](/guides/guides_v2-ru/audio-i-golos/audio-voice.md)

***

*Последнее обновление: 30 марта 2026 г.*


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-ru/audio-i-golos/voxtral-tts.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
