Voxtral TTS

Le modèle texte-vers-parole open-weight de Mistral : 4 milliards de paramètres, 9 langues, clonage de voix zero-shot, seulement 3 Go de VRAM.

Spécification
Valeur

Développeur

Mistral AI

Paramètres

4 milliards

Architecture

TTS uniquement décodeur

Langues

9 (anglais, français, allemand, espagnol, hindi, arabe, portugais, italien, japonais)

Licence

Apache 2.0 (poids ouverts)

VRAM

~3 Go (FP16)

Latence

70 ms pour une sortie de 10 secondes

Clonage de voix

Zero-shot à partir d’une référence de 3 secondes

Publication

26 mars 2026

Pourquoi Voxtral TTS ?

Voxtral TTS est la réponse open-weight de Mistral à ElevenLabs et OpenAI TTS. Principaux avantages pour les utilisateurs de Clore.ai :

  • Fonctionne sur n’importe quel GPU — seulement 3 Go de VRAM, ce qui signifie même qu’une RTX 3060 fonctionne parfaitement

  • Aucun frais d’API — auto-hébergé = synthèse illimitée à coût marginal nul

  • Confidentialité des données — l’audio ne quitte jamais votre machine

  • Clonage zero-shot — clonez n’importe quelle voix à partir de 3 secondes d’audio de référence

  • 9 langues nativement — y compris l’hindi et l’arabe, souvent absents chez les concurrents

  • Vitesse en temps réel — RTF 0,1–0,2× sur RTX 4070+ (clip de 10 secondes en 1–2 secondes)

Exigences GPU sur Clore.ai

GPU
VRAM
Performance
Prix Clore.ai

RTX 3060 12 Go

12 Go

✅ Bon — 3–4× le temps réel

à partir de 0,10 $/jour

RTX 3090 24 Go

24 Go

✅ Excellent — traitement par lots

à partir de 0,30 $/jour

RTX 4070 12 Go

12 Go

✅ Excellent — 5–10× le temps réel

à partir de 0,25 $/jour

RTX 4090 24 Go

24 Go

✅ Excessif — latence inférieure à la seconde

à partir de 0,50 $/jour

Recommandation : Une RTX 3060 12 Go (0,10 $/jour sur Clore.ai) est le meilleur compromis pour la plupart des cas d’usage. Voxtral n’a besoin que de 3 Go de VRAM, vous pouvez donc l’exécuter en parallèle avec d’autres modèles.

Démarrage rapide sur Clore.ai

Étape 1 : Louer un serveur GPU

  1. Filtrez pour n’importe quel GPU avec 8 Go de VRAM ou plus

  2. Sélectionnez un Docker déploiement

  3. Utilisez l’image : pytorch/pytorch:2.4.0-cuda12.4-cudnn9-devel

Étape 2 : Installer les dépendances

Étape 3 : Synthèse vocale de base

Étape 4 : Clonage de voix zero-shot

Étape 5 : Synthèse multilingue

Serveur API de production

Déployez Voxtral comme API REST pour l’intégrer à vos applications :

Déploiement Docker

Voxtral vs autres modèles TTS

Fonctionnalité
Voxtral TTS
ElevenLabs
Qwen3-TTS
Kokoro TTS
Fish Speech

Poids ouverts

✅ Apache 2.0

❌ API uniquement

VRAM

3 Go

N/A (cloud)

8 Go

2 Go

4 Go

Langues

9

30+

50+

5

8

Clonage de voix

réf. 3 s

réf. 1 s

réf. 5 s

réf. 10 s

Latence

70 ms

~200 ms

~150 ms

50 ms

100 ms

Qualité

⭐⭐⭐⭐⭐

⭐⭐⭐⭐⭐

⭐⭐⭐⭐

⭐⭐⭐⭐

⭐⭐⭐⭐

Auto-hébergé

Traitement par lots pour les grands projets

Mode streaming pour les applications en temps réel

Dépannage

Problème
Solution

OOM sur un petit GPU

Utilisez model.half() pour FP16 (divise la VRAM par deux à ~1,5 Go)

Première inférence lente

Normal — le modèle compile les noyaux CUDA au premier lancement (~30 s)

Qualité médiocre pour la langue X

Assurez-vous d’utiliser le bon langue paramètre ; certaines langues nécessitent un audio de référence plus long

Artéfacts audio

Augmentez la reference_audio longueur à 5–10 s pour un meilleur clonage de voix

Échec du téléchargement du modèle

Définissez HF_TOKEN variable d’environnement pour accéder au modèle protégé

Analyse des coûts : Voxtral sur Clore.ai vs TTS cloud

Service
1 M caractères/mois
Remarques

ElevenLabs Pro

99 $/mois

500 k caractères inclus, frais de dépassement

OpenAI TTS

15 $/mois

15 $ par 1 M caractères

Google Cloud TTS

16 $/mois

Voix standard

Voxtral sur Clore.ai

3–15 $/mois

RTX 3060 à 0,10–0,50 $/jour, caractères illimités

En résumé : Héberger Voxtral soi-même sur Clore.ai est 6 à 30 fois moins cher que les API TTS cloud, avec zéro limite de caractères et une confidentialité totale des données.

Pour en savoir plus


Dernière mise à jour : 30 mars 2026

Mis à jour

Ce contenu vous a-t-il été utile ?