MeloTTS

Exécuter MeloTTS synthèse vocale multilingue de haute qualité avec inférence rapide sur les GPU Clore.ai

MeloTTS est une bibliothèque de synthèse vocale multilingue et de haute qualité développée par MyShell AI. Elle offre une synthèse vocale rapide et à l'apparence naturelle dans plusieurs langues et variantes d'accent anglais, conçue à la fois pour la recherche et le déploiement en production. MeloTTS est optimisé pour la vitesse — il peut générer la parole significativement plus vite que le temps réel même sur CPU — tout en conservant une qualité audio élevée adaptée à un usage commercial.

MeloTTS prend actuellement en charge :

  • Anglais (Américain, Britannique, Indien, Australien, Par défaut)

  • Chinois (simplifié et chinois-anglais mixte)

  • Japonais

  • Coréen

  • Espagnol

  • Français

Points forts :

  • Inférence rapide — plus rapide que le temps réel sur CPU, fulgurant sur GPU

  • 🌍 Multilingue — 6 langues avec variantes d'accent pour l'anglais

  • 🐳 Prêt pour Docker — image Docker officielle disponible

  • 🔌 API REST — API HTTP pour l'intégration dans n'importe quelle application

  • 📱 De niveau production — utilisé dans les produits grand public de MyShell

circle-check

Exigences serveur

Paramètre
Minimum
Recommandé

GPU

NVIDIA GTX 1080 (8 Go)

NVIDIA RTX 3090 (24 Go)

VRAM

4 Go

8–16 Go

RAM

8 Go

16 Go

CPU

4 cœurs

8 cœurs

Disque

10 Go

20 Go

OS

Ubuntu 20.04+

Ubuntu 22.04

CUDA

11.7+ (optionnel)

12.1+

Python

3.8+

3.10

Ports

22, 8888

22, 8888

circle-info

MeloTTS est particulièrement efficace — il fonctionne bien sur CPU pour les requêtes individuelles et profite grandement du GPU pour le traitement par lots. Même un GPU d'entrée de gamme double considérablement le débit.


Déploiement rapide sur CLORE.AI

circle-exclamation

1. Trouvez un serveur adapté

Aller à CLORE.AI Marketplacearrow-up-right et filtrez par :

  • VRAM: ≥ 4 Go (ou CPU uniquement pour un faible volume)

  • GPU: Tout GPU NVIDIA (GTX 1080+, série RTX, A100)

  • Disque: ≥ 10 Go

2. Configurez votre déploiement

Image Docker :

Mappages de ports :

Variables d’environnement :

Commande de démarrage (exécuter après SSH sur le serveur) :

3. Accédez à l'API

Tester avec :


Configuration étape par étape

Étape 1 : Connectez-vous en SSH à votre serveur

Étape 2 : Construire et exécuter le conteneur

Étant donné que MeloTTS n'a pas d'image préconstruite sur Docker Hub, utilisez une base NVIDIA CUDA et installez MeloTTS depuis les sources :

Sinon, construisez une image Docker personnalisée depuis les sources :

Étape 3 : Vérifier que le service fonctionne

Étape 4 : Alternative — interface Jupyter Notebook

Accéder à : http://<server-ip>:8888

Étape 5 : Installer depuis pip (sans Docker)


Exemples d’utilisation

Exemple 1 : TTS anglais basique (Python)


Exemple 2 : TTS multilingue


Exemple 3 : Utilisation de l'API REST


Exemple 4 : Traitement par lots à grande vitesse


Exemple 5 : TTS mixte chinois-anglais


Configuration

Configuration Docker Compose

Étant donné que MeloTTS n'a pas d'image officielle sur Docker Hub, utilisez l'image de base NVIDIA CUDA et installez MeloTTS depuis les sources au démarrage :

Options de configuration de l'API

Paramètre
Par défaut
Description

--host

127.0.0.1

Adresse de liaison (utiliser 0.0.0.0 pour public)

--port

8888

Port du serveur API

--workers

1

Nombre de processus workers

--device

auto

cuda, cpu, ou auto

Langues et locuteurs pris en charge

Langue
Code
Identifiants des locuteurs

Anglais

EN

EN-Default, EN-US, EN-GB, EN-India, EN-Australia, EN-Brazil

Chinois

ZH

ZH

Japonais

JP

JP

Coréen

KR

KR

Espagnol

SP

SP

Français

FR

FR


Conseils de performance

1. Benchmark GPU vs CPU

Performance de MeloTTS (RTF = Facteur temps réel, plus bas est meilleur) :

Périphérique
RTF
Remarques

CPU (8 coeurs)

~0.3x

Rapide, idéal pour faible charge

RTX 3080

~0.05x

20x plus rapide que le temps réel

RTX 4090

~0.02x

50x plus rapide que le temps réel

A100

~0.01x

100x plus rapide que le temps réel

2. Optimiser le débit

3. Pré-chauffer le modèle

4. Ajuster la qualité audio vs la vitesse

5. Efficacité mémoire


Dépannage

Problème : espeak-ng introuvable

Problème : données NLTK manquantes

Problème : le port 8888 entre en conflit avec Jupyter

MeloTTS utilise par défaut le port 8888, qui entre en conflit avec Jupyter Notebook. Solutions :

Problème : le texte chinois ne s'affiche pas correctement

Problème : l'extraction de l'image Docker échoue

Problème : inférence lente sur GPU


Recommandations GPU Clore.ai

MeloTTS est léger — il fonctionne bien sur CPU pour de faibles volumes et évolue linéairement avec la puissance GPU. Vous n'avez pas besoin de matériel coûteux.

GPU
VRAM
Prix Clore.ai
RTF (Facteur temps réel)
Capacité

CPU uniquement

~0,02$/h

~0.3×

~3 req/min

RTX 3090

24 Go

~0,12 $/h

~0.02× (50× temps réel)

~100 req/min

RTX 4090

24 Go

~0,70 $/h

~0.01× (100× temps réel)

~200 req/min

A100 40GB

40 Go

~1,20 $/h

~0.005× (200× temps réel)

~400 req/min

circle-info

Meilleur rapport qualité/prix pour les charges TTS : RTX 3090 à 0,12 $/h offre une vitesse TTS de 50× temps réel. Pour une API de production servant des centaines d'utilisateurs, cela est plus que suffisant. Les instances sans GPU (0,02 $/h) conviennent pour le développement et les déploiements à faible trafic.

Recommandation pour la production : Pour une API TTS multilingue servant 10 à 50 utilisateurs simultanés, la RTX 3090 est le meilleur compromis. Mettez à l'échelle horizontalement (plus d'instances) plutôt que d'upgrader vers des GPU coûteux A100 — MeloTTS n'en bénéficie pas proportionnellement.


Liens

Mis à jour

Ce contenu vous a-t-il été utile ?