Voxtral TTS

Модель Mistral с открытыми весами для преобразования текста в речь: 4 млрд параметров, 9 языков, клонирование голоса zero-shot, всего 3 ГБ VRAM.

Параметр
Значение

Разработчик

Mistral AI

Параметры

4 миллиарда

Архитектура

TTS только на декодере

Языки

9 (английский, французский, немецкий, испанский, хинди, арабский, португальский, итальянский, японский)

Лицензия

Apache 2.0 (открытые веса)

VRAM

~3 ГБ (FP16)

Задержка

70 мс для вывода длиной 10 секунд

Клонирование голоса

Zero-shot по эталону длиной 3 секунды

Релиз

26 марта 2026 г.

Почему Voxtral TTS?

Voxtral TTS — это ответ Mistral с открытыми весами на ElevenLabs и OpenAI TTS. Ключевые преимущества для пользователей Clore.ai:

  • Работает на любом GPU — всего 3 ГБ VRAM означают, что даже RTX 3060 работает отлично

  • Без API-платежей — self-hosted = неограниченный синтез без переменных затрат

  • Конфиденциальность данных — аудио никогда не покидает вашу машину

  • Клонирование zero-shot — клонируйте любой голос по 3 секундам референсного аудио

  • 9 языков нативно — включая хинди и арабский, которых часто нет у конкурентов

  • Скорость в реальном времени — RTF 0,1–0,2× на RTX 4070+ (10-секундный фрагмент за 1–2 секунды)

Требования к GPU на Clore.ai

GPU
VRAM
Производительность
Цена на Clore.ai

RTX 3060 12GB

12 ГБ

✅ Хорошо — 3–4× в реальном времени

от $0,10/день

RTX 3090 24GB

24 ГБ

✅ Отлично — пакетная обработка

от $0,30/день

RTX 4070 12GB

12 ГБ

✅ Превосходно — 5–10× в реальном времени

от $0,25/день

RTX 4090 24GB

24 ГБ

✅ Избыточно — задержка менее секунды

от $0,50/день

Рекомендация: RTX 3060 12GB ($0,10/день на Clore.ai) — оптимальный вариант для большинства сценариев. Voxtral требует всего 3 ГБ VRAM, поэтому его можно запускать вместе с другими моделями.

Быстрый старт на Clore.ai

Шаг 1: Арендуйте GPU-сервер

  1. Отфильтруйте любой GPU с 8+ ГБ VRAM

  2. Выберите Docker развертывание

  3. Используйте образ: pytorch/pytorch:2.4.0-cuda12.4-cudnn9-devel

Шаг 2: Установите зависимости

Шаг 3: Базовый синтез текста в речь

Шаг 4: Клонирование голоса zero-shot

Шаг 5: Многоязычный синтез

Промышленный API-сервер

Разверните Voxtral как REST API для интеграции в ваши приложения:

Развертывание в Docker

Voxtral против других моделей TTS

Функция
Voxtral TTS
ElevenLabs
Qwen3-TTS
Kokoro TTS
Fish Speech

Открытые веса

✅ Apache 2.0

❌ Только API

VRAM

3 ГБ

Н/Д (облако)

8 ГБ

2 ГБ

4 ГБ

Языки

9

30+

50+

5

8

Клонирование голоса

эталон 3 с

эталон 1 с

эталон 5 с

эталон 10 с

Задержка

70 мс

~200 мс

~150 мс

50 мс

100 мс

Качество

⭐⭐⭐⭐⭐

⭐⭐⭐⭐⭐

⭐⭐⭐⭐

⭐⭐⭐⭐

⭐⭐⭐⭐

Self-hosted

Пакетная обработка для крупных проектов

Режим потоковой передачи для приложений в реальном времени

Устранение неполадок

Проблема
Решение

OOM на небольшом GPU

Используйте model.half() для FP16 (уменьшает VRAM примерно до 1,5 ГБ)

Медленный первый инференс

Нормально — модель компилирует CUDA-ядра при первом запуске (~30 с)

Низкое качество для языка X

Убедитесь, что указан правильный язык параметр; для некоторых языков требуется более длинное референсное аудио

Артефакты аудио

Увеличьте reference_audio длину до 5–10 с для лучшего клонирования голоса

Не удаётся загрузить модель

Установите HF_TOKEN переменную окружения для доступа к защищённой модели

Анализ затрат: Voxtral на Clore.ai против облачных TTS

Сервис
1 млн символов/месяц
Примечания

ElevenLabs Pro

$99/мес

Включено 500 тыс. символов, доплата за превышение

OpenAI TTS

$15/мес

$15 за 1 млн символов

Google Cloud TTS

$16/мес

Стандартные голоса

Voxtral на Clore.ai

$3–15/мес

RTX 3060 по $0,10–0,50/день, неограниченное число символов

Итог: Самостоятельный хостинг Voxtral на Clore.ai в 6–30 раз дешевле облачных TTS API, без ограничений на количество символов и с полной конфиденциальностью данных.

Дополнительное чтение


Последнее обновление: 30 марта 2026 г.

Последнее обновление

Это было полезно?