MeloTTS

MeloTTS hochqualitatives mehrsprachiges TTS mit schneller Inferenz auf Clore.ai-GPUs ausführen

MeloTTS ist eine hochwertige, mehrsprachige Text‑zu‑Sprache‑Bibliothek, entwickelt von MyShell AI. Sie liefert schnelle, natürlich klingende Sprachsynthese in mehreren Sprachen und englischen Akzenten, ausgelegt für Forschung und Produktionseinsatz. MeloTTS ist auf Geschwindigkeit optimiert — es kann Sprache deutlich schneller als in Echtzeit sogar auf der CPU erzeugen — und behält dabei eine hohe Audioqualität, die für kommerzielle Nutzung geeignet ist.

MeloTTS unterstützt derzeit:

  • Englisch (Amerikanisch, Britisch, Indisch, Australisch, Standard)

  • Chinesisch (vereinfachtes Chinesisch & gemischtes Chinesisch‑Englisch)

  • Japanisch

  • Koreanisch

  • Spanisch

  • Französisch

Wichtigste Höhepunkte:

  • Schnelle Inferenz — schneller als in Echtzeit auf der CPU, blitzschnell auf der GPU

  • 🌍 Mehrsprachig — 6 Sprachen mit Akzentvarianten für Englisch

  • 🐳 Docker‑bereit — offizielles Docker‑Image verfügbar

  • 🔌 REST-API — HTTP‑API zur Integration in jede Anwendung

  • 📱 Produktionsreif — verwendet in MyShells Verbraucherprodukten

circle-check

Serveranforderungen

Parameter
Minimum
Empfohlen

GPU

NVIDIA GTX 1080 (8 GB)

NVIDIA RTX 3090 (24 GB)

VRAM

4 GB

8–16 GB

RAM

8 GB

16 GB

CPU

4 Kerne

8 Kerne

Festplatte

10 GB

20 GB

Betriebssystem

Ubuntu 20.04+

Ubuntu 22.04

CUDA

11.7+ (optional)

12.1+

Python

3.8+

3.10

Ports

22, 8888

22, 8888

circle-info

MeloTTS ist außergewöhnlich effizient — es läuft gut auf der CPU für einzelne Anfragen und profitiert stark von der GPU bei der Stapelverarbeitung. Selbst eine günstige GPU verdoppelt den Durchsatz dramatisch.


Schnelle Bereitstellung auf CLORE.AI

circle-exclamation

1. Finden Sie einen geeigneten Server

Gehe zu CLORE.AI Marketplacearrow-up-right und filtern Sie nach:

  • VRAM: ≥ 4 GB (oder CPU‑only für geringen Durchsatz)

  • GPU: Jede NVIDIA GPU (GTX 1080+, RTX‑Serie, A100)

  • Festplatte: ≥ 10 GB

2. Konfigurieren Sie Ihre Bereitstellung

Docker-Image:

Portzuordnungen:

Umgebungsvariablen:

Startbefehl (ausführen nach SSH in den Server):

3. Greifen Sie auf die API zu

Testen mit:


Schritt-für-Schritt-Einrichtung

Schritt 1: SSH auf Ihren Server

Schritt 2: Container bauen und ausführen

Da MeloTTS kein vorgefertigtes Docker Hub Image hat, verwenden Sie ein NVIDIA CUDA Basisimage und installieren MeloTTS aus dem Quellcode:

Alternativ: Ein benutzerdefiniertes Docker‑Image aus dem Quellcode bauen:

Schritt 3: Überprüfen, ob der Dienst läuft

Schritt 4: Alternative — Jupyter Notebook Oberfläche

Zugriff unter: http://<server-ip>:8888

Schritt 5: Installation per pip (ohne Docker)


Beispielanwendungen

Beispiel 1: Grundlegendes English TTS (Python)


Beispiel 2: Mehrsprachiges TTS


Beispiel 3: Verwendung der REST API


Beispiel 4: Hochgeschwindigkeits‑Batchverarbeitung


Beispiel 5: Gemischtes Chinesisch‑Englisch TTS


Konfiguration

Docker-Compose-Setup

Da MeloTTS kein offizielles Docker Hub Image hat, verwenden Sie das NVIDIA CUDA Basisimage und installieren MeloTTS beim Start aus dem Quellcode:

API Konfigurationsoptionen

Parameter
Standard
Beschreibung

--host

127.0.0.1

Bind‑Adresse (verwenden Sie 0.0.0.0 für öffentlich)

--port

8888

API‑Server Port

--workers

1

Anzahl der Worker‑Prozesse

--device

auto

cuda, cpu, oder auto

Unterstützte Sprachen und Sprecher

Sprache
Code
Sprecher‑IDs

Englisch

EN

EN-Default, EN-US, EN-GB, EN-India, EN-Australia, EN-Brazil

Chinesisch

ZH

ZH

Japanisch

JP

JP

Koreanisch

KR

KR

Spanisch

SP

SP

Französisch

FR

FR


Leistungs-Tipps

1. GPU vs CPU Benchmark

MeloTTS Leistung (RTF = Real‑Time‑Factor, niedriger ist besser):

Gerät
RTF
Hinweise

CPU (8 Kerne)

~0.3x

Schnell, gut bei geringer Last

RTX 3080

~0.05x

20× schneller als in Echtzeit

RTX 4090

~0.02x

50× schneller als in Echtzeit

A100

~0.01x

100× schneller als in Echtzeit

2. Für Durchsatz optimieren

3. Modell aufwärmen

4. Audioqualität vs. Geschwindigkeit anpassen

5. Speichereffizienz


Fehlerbehebung

Problem: espeak-ng nicht gefunden

Problem: NLTK‑Daten fehlen

Problem: Port 8888 kollidiert mit Jupyter

MeloTTS verwendet standardmäßig Port 8888, der mit Jupyter Notebook kollidiert. Lösungen:

Problem: Chinesischer Text wird nicht korrekt dargestellt

Problem: Docker‑Image Pull schlägt fehl

Problem: Langsame Inferenz auf der GPU


Clore.ai GPU-Empfehlungen

MeloTTS ist leichtgewichtig — es läuft gut auf der CPU bei geringem Volumen und skaliert linear mit GPU‑Rechenleistung. Sie benötigen keine teure Hardware.

GPU
VRAM
Clore.ai-Preis
RTF (Real‑Time‑Factor)
Kapazität

Nur CPU

~$0.02/Stunde

~0.3×

~3 Anfragen/Min

RTX 3090

24 GB

~$0.12/Stunde

~0.02× (50× Echtzeit)

~100 Anfragen/Min

RTX 4090

24 GB

~$0.70/Stunde

~0.01× (100× Echtzeit)

~200 Anfragen/Min

A100 40GB

40 GB

~$1.20/Stunde

~0.005× (200× Echtzeit)

~400 Anfragen/Min

circle-info

Bestes Preis‑Leistungs‑Verhältnis für TTS‑Workloads: RTX 3090 bei $0.12/Stunde liefert 50× Echtzeit‑TTS‑Geschwindigkeit. Für eine Produktions‑API, die Hunderte von Nutzern bedient, ist das mehr als ausreichend. CPU‑Only Instanzen ($0.02/Stunde) eignen sich gut für Entwicklung und deployments mit geringem Traffic.

Produktionsempfehlung: Für eine mehrsprachige TTS‑API, die 10–50 gleichzeitige Nutzer bedient, ist die RTX 3090 der Sweetspot. Horizontal skalieren (mehrere Instanzen) statt auf teure A100 aufzurüsten — MeloTTS profitiert nicht proportional von höherwertigen GPUs.


Zuletzt aktualisiert

War das hilfreich?