Comparaison des moteurs TTS

Comparez les principaux moteurs open-source de synthèse vocale pour un déploiement sur les serveurs GPU Clore.ai.

circle-info

Synthèse vocale (TTS) convertit le texte écrit en audio à l'apparence naturelle. Ce guide compare cinq moteurs TTS open-source majeurs : XTTS v2, Bark, Kokoro, Fish Speech et MeloTTS — couvrant la qualité, la vitesse, la prise en charge des langues et les capacités de clonage vocal.


Matrice de décision rapide

XTTS v2
Bark
Kokoro
Fish Speech
MeloTTS

Développeur

Coqui AI

Suno AI

Hexgrad

Fish Audio

MyShell AI

Qualité

⭐⭐⭐⭐⭐

⭐⭐⭐⭐

⭐⭐⭐⭐

⭐⭐⭐⭐⭐

⭐⭐⭐

Vitesse

Moyen

Lent

Rapide

Rapide

Le plus rapide

Clonage de voix

✅ (extrait 3s)

✅ (préréglages de voix)

✅ (limité)

✅ (extrait 10s)

Langues

17

10+

Anglais

8+

8

VRAM min.

4 Go

8 Go

CPU ok

4 Go

CPU ok

Licence

CPML (non-commercial)

MIT

Apache 2.0

CC BY-NC-SA

MIT

Étoiles GitHub

35K+ (Coqui TTS)

38K+

12K+

14K+

15K+


Aperçu

XTTS v2

XTTS v2 de Coqui est la référence pour le clonage vocal open-source en TTS. Il peut cloner n'importe quelle voix à partir d'un extrait audio de 3 secondes avec une fidélité exceptionnelle.

Philosophie: Expressivité maximale et qualité de clonage vocal.

Bark

Bark de Suno est un modèle TTS basé sur des transformeurs qui génère une parole très expressive, incluant des sons non vocaux : rires, soupirs, musique et effets sonores.

Philosophie: Pas seulement de la parole — génération audio complète.

Kokoro

Kokoro est un modèle TTS léger et rapide optimisé pour l'anglais. Malgré sa petite taille (~82M de paramètres), il offre une qualité étonnamment élevée.

Philosophie: Petit modèle, grande qualité, fonctionne partout.

Fish Speech

Fish Speech de Fish Audio est un TTS de qualité production avec un clonage vocal exceptionnel à partir de courts extraits. Il utilise une architecture novel combinant codec + modèle de langage.

Philosophie: Qualité production, inférence rapide, excellent clonage.

MeloTTS

MeloTTS de MyShell est ultra-rapide, TTS multi-accentes optimisé pour les applications en temps réel. Il fonctionne efficacement sur CPU et prend en charge plusieurs accents anglais et langues asiatiques.

Philosophie: Vitesse temps réel à n'importe quelle échelle.


Comparaison de la qualité

Scores de naturalité (MOS — Mean Opinion Score, 1-5)

circle-info

Les scores MOS sont des valeurs approximatives basées sur des publications et des évaluations communautaires. La qualité réelle dépend fortement du contenu du texte et de la configuration de la voix.

Modèle
MOS anglais
MOS multilingue
Expressivité

XTTS v2

4.3

4.1

⭐⭐⭐⭐⭐

Bark

3.9

3.7

⭐⭐⭐⭐⭐ (unique)

Kokoro

4.2

N/D (uniquement EN)

⭐⭐⭐

Fish Speech

4.4

4.2

⭐⭐⭐⭐

MeloTTS

3.8

3.6

⭐⭐

Ce que chaque modèle fait de mieux

Modèle
Atout qualitatif distinctif

XTTS v2

Clonage vocal quasi parfait, gamme émotionnelle

Bark

Sons non vocaux, rires, musique, effets

Kokoro

Meilleur rapport qualité/taille, cadence naturelle

Fish Speech

Meilleure naturalité globale + précision du clonage

MeloTTS

Sortie cohérente et propre pour les textes longs


Benchmarks de vitesse

Caractères par seconde (CPU vs GPU)

Test : "The quick brown fox jumps over the lazy dog. How are you today?" (60 caractères)

Modèle
Vitesse CPU
Vitesse GPU (RTX 3080)
Facteur temps réel

XTTS v2

~15 caractères/s

~150 caractères/s

0.3× (GPU)

Bark

~5 caractères/s

~40 caractères/s

0.1× (GPU)

Kokoro

~200 caractères/s

~800 caractères/s

5× (GPU)

Fish Speech

~80 caractères/s

~500 caractères/s

3× (GPU)

MeloTTS

~500 caractères/s

~2000 caractères/s

12× (GPU)

Un facteur temps réel > 1.0 signifie plus rapide que la vitesse de lecture

Temps pour générer 1 minute d'audio

Modèle
CPU
RTX 3080
A100

XTTS v2

~8 min

~30s

~10s

Bark

~20 min

~3 min

~45s

Kokoro

~20s

~5s

~2s

Fish Speech

~45s

~8s

~3s

MeloTTS

~8s

~2s

<1s

circle-check

Prise en charge des langues

Langues prises en charge

Modèle
Langues
Remarquable

XTTS v2

17

EN, ES, FR, DE, IT, PT, PL, TR, RU, NL, CS, AR, ZH, JA, HU, KO, HI

Bark

10+

EN, ZH, FR, DE, HI, IT, JA, KO, PL, PT, RU, ES, TR

Kokoro

2

Anglais (US/UK), Japonais (limité)

Fish Speech

8

EN, ZH, JA, KO, FR, DE, AR, ES

MeloTTS

8

EN (4 accents), ES, FR, ZH, JA, KO

Remarques sur la qualité des langues

Modèle
Anglais
Chinois
Japonais
Européen

XTTS v2

Excellente

Bonne

Bonne

Excellente

Bark

Bonne

Moyen

Moyen

Bonne

Kokoro

Excellente

Limité

Fish Speech

Excellente

Meilleur

Bonne

Bonne

MeloTTS

Bonne

Bonne

Bonne

Bonne

circle-info

Pour la synthèse vocale chinoise: Fish Speech et MeloTTS sont les meilleures options open-source. Les deux gèrent naturellement les tons et les caractères.

Pour les applications multilingues: XTTS v2 prend en charge le plus grand nombre de langues avec une qualité cohérente sur l'ensemble.


Comparaison du clonage vocal

Capacités de clonage

Modèle
Durée de référence
Qualité du clonage
Zero-shot

XTTS v2

3 secondes

⭐⭐⭐⭐⭐

Bark

Préréglages de voix uniquement

⭐⭐⭐

Partiel

Kokoro

Non pris en charge

Fish Speech

10 secondes

⭐⭐⭐⭐⭐

MeloTTS

Non pris en charge

Clonage vocal XTTS v2

Clonage vocal Fish Speech

Préréglages vocaux Bark


XTTS v2 : Analyse approfondie

Architecture

  • VITS + GPT architecture hybride

  • Entraîné sur 16K+ heures réparties sur 17 langues

  • Minimum 3 secondes pour le clonage zero-shot

Installation sur Clore.ai

Déploiement Docker

Faiblesses: Licence CPML (non-commerciale sans permission), plus lent que Kokoro/MeloTTS


Bark : Analyse approfondie

Architecture

  • Transformeur de type GPT pour la génération de tokens audio

  • Processus en trois étapes : texte → sémantique → tokens grossiers → tokens fins

  • Génère de véritables tokens de codec audio (EnCodec)

Ce qui rend Bark unique

Bark est le seul TTS open-source qui génère nativement :

  • 🎵 Musique de fond intégrée à la parole

  • 😂 Rires, soupirs, déblayage de gorge

  • 🎭 Multiples locuteurs dans une même génération

  • 🌍 Énoncés en langues mixtes

Langage de balisage

Installation

Faiblesses: Lent (pipeline en 3 étapes), incohérent selon les exécutions, pas de vrai clonage vocal


Kokoro : Analyse approfondie

Architecture

  • 82M de paramètres Modèle basé sur StyleTTS2

  • Extrêmement petit mais de qualité étonnamment élevée

  • Inférence rapide sur CPU et GPU

Voix disponibles

Support du streaming

Faiblesses: Principalement anglais uniquement, pas de clonage vocal, expressivité limitée


Fish Speech : Analyse approfondie

Architecture

  • VQGAN + modèle de langage architecture

  • Entraîné sur 700K+ heures d'audio

  • Forte prise en charge multilingue avec support des langues asiatiques

Installation

API Python

Clonage vocal

Faiblesses: Licence CC BY-NC-SA (non-commerciale), plus de VRAM recommandée pour la meilleure qualité


MeloTTS : Analyse approfondie

Architecture

  • Basé sur VITS2 architecture

  • Entraînement multi-accents anglais

  • Extrêmement optimisé pour la vitesse d'inférence

Accents et langues

Traitement par lots (très rapide)

Faiblesses: Pas de clonage vocal, rendu robotique à grande vitesse, expressivité limitée


Déploiement sur Clore.ai

Serveur TTS tout-en-un

Résumé des besoins en VRAM

Modèle
CPU
GPU 4 Go
GPU 8 Go
GPU 16 Go

XTTS v2

Lent

Bark

Très lent

Kokoro

Rapide

Fish Speech

Moyen

MeloTTS

Très rapide


Exemples d'intégration

API compatible OpenAI (pour remplacement facile)

Intégration LangChain


Quand utiliser lequel

Guide de décision

Par type d'application

Application
Meilleur choix
Pourquoi

Génération de livres audio

XTTS v2

Voix naturelle et cohérente

Chatbot en temps réel

MeloTTS ou Kokoro

Inférence la plus rapide

Automatisation de podcasts

XTTS v2 ou Fish Speech

Meilleur clonage

Personnages de jeu

Bark

Voix expressives et variées

Service client

MeloTTS

Extensible, rapide

Outils d'accessibilité

Kokoro

Léger, gratuit

Doublage vocal

Fish Speech

Meilleure qualité de clonage

Narration longue durée

XTTS v2

Qualité constante


Résumé des licences

circle-exclamation
Modèle
Licence
Commercial ?
Remarques

XTTS v2

Coqui Public Model License

❌ Gratuit

Nécessite une licence pour un usage commercial

Bark

MIT

Gratuit pour toute utilisation

Kokoro

Apache 2.0

Gratuit pour toute utilisation

Fish Speech

CC BY-NC-SA 4.0

Usage non commercial uniquement

MeloTTS

MIT

Gratuit pour toute utilisation

Entièrement ouvert pour un usage commercial : Bark, Kokoro, MeloTTS


Coût sur Clore.ai


Liens utiles


Résumé

Modèle
Utiliser quand

XTTS v2

Meilleur clonage de voix (réf. 3s), 17 langues, non commercial

Bark

Expressif, rires/effets, licence MIT

Kokoro

Rapide, voix anglaise de haute qualité, licence Apache

Fish Speech

Meilleur pour CJK, clonage en production, non commercial

MeloTTS

Le plus rapide, temps réel, anglais multi-accentué, licence MIT

Pour la plupart des déploiements en production sur Clore.ai :

  • Applications vocales en temps réel → MeloTTS ou Kokoro (gratuit, rapide, MIT)

  • Service de clonage vocal → XTTS v2 ou Fish Speech (vérifiez la licence)

  • Narration expressive → Bark ou XTTS v2


Recommandations GPU Clore.ai

Cas d’utilisation
GPU recommandé
Coût estimé sur Clore.ai

Développement/Test

RTX 3090 (24GB)

~$0.12/gpu/hr

Production

RTX 4090 (24GB)

~$0.70/gpu/hr

Grande échelle

A100 80GB

~$1.20/gpu/hr

💡 Tous les exemples de ce guide peuvent être déployés sur Clore.aiarrow-up-right serveurs GPU. Parcourez les GPU disponibles et louez à l’heure — sans engagement, avec accès root complet.

Mis à jour

Ce contenu vous a-t-il été utile ?