Vergleich von TTS‑Engines

Vergleichen Sie die führenden Open-Source-Text-zu-Sprache-Engines für die Bereitstellung auf Clore.ai GPU-Servern.

circle-info

Text-zu-Sprache (TTS) wandelt geschriebenen Text in natürlich klingendes Audio um. Dieser Leitfaden vergleicht fünf führende Open-Source-TTS‑Engines: XTTS v2, Bark, Kokoro, Fish Speech und MeloTTS — und behandelt Qualität, Geschwindigkeit, Sprachunterstützung und Fähigkeiten zur Stimmmodellierung.


Schnelle Entscheidungsübersicht

XTTS v2
Bark
Kokoro
Fish Speech
MeloTTS

Entwickler

Coqui AI

Suno AI

Hexgrad

Fish Audio

MyShell AI

Qualität

⭐⭐⭐⭐⭐

⭐⭐⭐⭐

⭐⭐⭐⭐

⭐⭐⭐⭐⭐

⭐⭐⭐

Geschwindigkeit

Mittel

Langsam

Schnell

Schnell

Am schnellsten

Stimmenklonen

✅ (3s Clip)

✅ (Stimmen-Voreinstellungen)

✅ (eingeschränkt)

✅ (10s Clip)

Sprachen

17

10+

Englisch

8+

8

Min. VRAM

4GB

8GB

CPU ok

4GB

CPU ok

Lizenz

CPML (nicht-kommerziell)

MIT

Apache 2.0

CC BY-NC-SA

MIT

GitHub-Sterne

35K+ (Coqui TTS)

38K+

12K+

14K+

15K+


Übersicht

XTTS v2

Coquis XTTS v2 ist der Goldstandard für Open-Source-Stimmenklon-TTS. Es kann jede Stimme aus einem 3‑sekündigen Audioclip mit außergewöhnlicher Genauigkeit klonen.

Philosophie: Maximale Ausdruckskraft und Qualität beim Stimmenklonen.

Bark

Sunos Bark ist ein transformerbasiertes TTS-Modell, das sehr ausdrucksstarke Sprache erzeugt, einschließlich Nicht-Sprach‑Geräuschen: Lachen, Seufzen, Musik und Soundeffekten.

Philosophie: Nicht nur Sprache — vollständige Audioerzeugung.

Kokoro

Kokoro ist ein leichtgewichtiges, schnelles TTS-Modell, das für Englisch optimiert ist. Trotz seiner geringen Größe (~82M Parameter) liefert es überraschend hohe Qualität.

Philosophie: Kleines Modell, große Qualität, läuft überall.

Fish Speech

Fish Audios Fish Speech ist ein produktionsreifes TTS mit außergewöhnlichem Stimmenklonen aus kurzen Clips. Es verwendet eine neuartige Codec- + Sprachmodell‑Architektur.

Philosophie: Produktionsqualität, schnelle Inferenz, exzellentes Klonen.

MeloTTS

MyShells MeloTTS ist ultraschnelles, multi-akzentuiertes TTS, optimiert für Echtzeitanwendungen. Es läuft effizient auf der CPU und unterstützt mehrere englische Akzente sowie asiatische Sprachen.

Philosophie: Echtzeitgeschwindigkeit in beliebigem Maßstab.


Qualitätsvergleich

Natürlichkeitswerte (MOS — Mean Opinion Score, 1–5)

circle-info

MOS-Werte sind ungefähre Angaben basierend auf veröffentlichten Papern und Community‑Bewertungen. Die tatsächliche Qualität hängt stark vom Textinhalt und der Stimmkonfiguration ab.

Modell
Englischer MOS
Multilingualer MOS
Ausdrucksstärke

XTTS v2

4.3

4.1

⭐⭐⭐⭐⭐

Bark

3.9

3.7

⭐⭐⭐⭐⭐ (einzigartig)

Kokoro

4.2

N/V (nur EN)

⭐⭐⭐

Fish Speech

4.4

4.2

⭐⭐⭐⭐

MeloTTS

3.8

3.6

⭐⭐

Worin jedes Modell am besten ist

Modell
Besondere Qualitätsmerkmale

XTTS v2

Beinahe perfektes Stimmenklonen, emotionaler Umfang

Bark

Nicht-Sprachgeräusche, Lachen, Musik, Effekte

Kokoro

Bestes Qualitäts‑zu‑Größe‑Verhältnis, natürliche Kadenz

Fish Speech

Beste Gesamt‑Natürlichkeit + Klon‑Genauigkeit

MeloTTS

Konsistente, saubere Ausgabe für lange Texte


Geschwindigkeitsbenchmarks

Zeichen pro Sekunde (CPU vs GPU)

Test: "The quick brown fox jumps over the lazy dog. How are you today?" (60 Zeichen)

Modell
CPU-Geschwindigkeit
GPU-Geschwindigkeit (RTX 3080)
Echtzeitfaktor

XTTS v2

~15 Zeichen/s

~150 Zeichen/s

0.3× (GPU)

Bark

~5 Zeichen/s

~40 Zeichen/s

0.1× (GPU)

Kokoro

~200 Zeichen/s

~800 Zeichen/s

5× (GPU)

Fish Speech

~80 Zeichen/s

~500 Zeichen/s

3× (GPU)

MeloTTS

~500 Zeichen/s

~2000 Zeichen/s

12× (GPU)

Echtzeitfaktor > 1.0 bedeutet schneller als Wiedergabegeschwindigkeit

Zeit zur Erzeugung von 1 Minute Audio

Modell
CPU
RTX 3080
A100

XTTS v2

~8 min

~30s

~10s

Bark

~20 min

~3 min

~45s

Kokoro

~20s

~5s

~2s

Fish Speech

~45s

~8s

~3s

MeloTTS

~8s

~2s

<1s

circle-check

Sprachunterstützung

Unterstützte Sprachen

Modell
Sprachen
Bemerkenswert

XTTS v2

17

EN, ES, FR, DE, IT, PT, PL, TR, RU, NL, CS, AR, ZH, JA, HU, KO, HI

Bark

10+

EN, ZH, FR, DE, HI, IT, JA, KO, PL, PT, RU, ES, TR

Kokoro

2

Englisch (US/UK), Japanisch (eingeschränkt)

Fish Speech

8

EN, ZH, JA, KO, FR, DE, AR, ES

MeloTTS

8

EN (4 Akzente), ES, FR, ZH, JA, KO

Anmerkungen zur Sprachqualität

Modell
Englisch
Chinesisch
Japanisch
Europäisch

XTTS v2

Ausgezeichnet

Gut

Gut

Ausgezeichnet

Bark

Gut

Mäßig

Mäßig

Gut

Kokoro

Ausgezeichnet

Begrenzt

Fish Speech

Ausgezeichnet

Beste

Gut

Gut

MeloTTS

Gut

Gut

Gut

Gut

circle-info

Für chinesisches TTS: Fish Speech und MeloTTS sind die besten Open-Source‑Optionen. Beide handhaben Tonhöhen und Schriftzeichen natürlich.

Für mehrsprachige Anwendungen: XTTS v2 unterstützt die meisten Sprachen mit konsistenter Qualität in allen.


Vergleich des Stimmenklonens

Klon-Fähigkeiten

Modell
Referenzlänge
Klon-Qualität
Zero-Shot

XTTS v2

3 Sekunden

⭐⭐⭐⭐⭐

Bark

Nur Stimmen‑Voreinstellungen

⭐⭐⭐

Teilweise

Kokoro

Nicht unterstützt

Fish Speech

10 Sekunden

⭐⭐⭐⭐⭐

MeloTTS

Nicht unterstützt

XTTS v2 Stimmenklonen

Fish Speech Stimmenklonen

Bark Stimmen‑Voreinstellungen


XTTS v2: Tiefer Einblick

Architektur

  • VITS + GPT hybride Architektur

  • Trainiert auf 16K+ Stunden über 17 Sprachen

  • 3‑Sekunden‑Minimum für Zero‑Shot‑Kloning

Installation auf Clore.ai

Docker‑Bereitstellung

Schwächen: CPML-Lizenz (nicht-kommerziell ohne Erlaubnis), langsamer als Kokoro/MeloTTS


Bark: Tiefer Einblick

Architektur

  • GPT‑artiger Transformer für Audio-Token‑Erzeugung

  • Drei‑stufiger Prozess: Text → semantisch → grob → fein Token

  • Erzeugt tatsächliche Audio‑Codec‑Token (EnCodec)

Was Bark einzigartig macht

Bark ist das einzige Open‑Source‑TTS, das nativ erzeugt:

  • 🎵 Hintergrundmusik innerhalb der Sprache

  • 😂 Lachen, Seufzer, Halsräuspern

  • 🎭 Mehrere Sprecher in einer Erzeugung

  • 🌍 Mischsprachige Äußerungen

Auszeichnungssprache

Installation

Schwächen: Langsam (3‑stufige Pipeline), inkonsistent zwischen Läufen, kein echtes Stimmenklonen


Kokoro: Tiefer Einblick

Architektur

  • 82M Parameter StyleTTS2‑basiertes Modell

  • Extrem klein, aber überraschend hohe Qualität

  • Schnelle Inferenz auf CPU und GPU

Verfügbare Stimmen

Streaming‑Unterstützung

Schwächen: Nur Englisch (vorwiegend), kein Stimmenklonen, begrenzte Ausdruckskraft


Fish Speech: Tiefer Einblick

Architektur

  • VQGAN + Sprachmodell Architektur

  • Trainiert auf 700K+ Stunden Audio

  • Stark mehrsprachig mit Unterstützung für asiatische Sprachen

Installation

Python‑API

Stimmenklonen

Schwächen: CC BY-NC-SA‑Lizenz (nicht-kommerziell), mehr VRAM für beste Qualität


MeloTTS: Tiefer Einblick

Architektur

  • VITS2‑basiert Architektur

  • Training mit mehreren englischen Akzenten

  • Extrem optimiert für Inferenzgeschwindigkeit

Akzente und Sprachen

Batch‑Verarbeitung (sehr schnell)

Schwächen: Kein Stimmenklonen, bei hoher Geschwindigkeit robotisch, begrenzte Ausdruckskraft


Bereitstellung auf Clore.ai

All‑in‑One TTS‑Server

VRAM‑Anforderungen Zusammenfassung

Modell
CPU
4GB GPU
8GB GPU
16GB GPU

XTTS v2

Langsam

Bark

Sehr langsam

Kokoro

Schnell

Fish Speech

Mittel

MeloTTS

Sehr schnell


Integrationsbeispiele

OpenAI‑kompatible API (als Drop‑in‑Ersatz)

LangChain‑Integration


Wann welches verwenden

Entscheidungsleitfaden

Nach Anwendungstyp

Anwendung
Beste Wahl
Warum

Hörbucherzeugung

XTTS v2

Natürlich, konsistente Stimme

Echtzeit-Chatbot

MeloTTS oder Kokoro

Schnellste Inferenz

Podcast-Automatisierung

XTTS v2 oder Fish Speech

Beste Klonung

Spielcharaktere

Bark

Ausdrucksstarke, abwechslungsreiche Stimmen

Kundendienst

MeloTTS

Skalierbar, schnell

Barrierefreiheits-Tools

Kokoro

Leichtgewichtig, kostenlos

Sprach-Synchronisation

Fish Speech

Beste Klonungsqualität

Langform-Narration

XTTS v2

Konstante Qualität


Lizenzübersicht

circle-exclamation
Modell
Lizenz
Kommerziell?
Hinweise

XTTS v2

Coqui Public Model License

❌ Kostenlos

Erfordert Lizenz für kommerzielle Nutzung

Bark

MIT

Für alle Nutzungen kostenlos

Kokoro

Apache 2.0

Für alle Nutzungen kostenlos

Fish Speech

CC BY-NC-SA 4.0

Nur nicht-kommerziell

MeloTTS

MIT

Für alle Nutzungen kostenlos

Vollständig offen für kommerzielle Nutzung: Bark, Kokoro, MeloTTS


Kosten auf Clore.ai



Zusammenfassung

Modell
Verwenden wenn

XTTS v2

Beste Voice-Cloning (3s Referenz), 17 Sprachen, nicht-kommerziell

Bark

Ausdrucksstark, Lachen/Effekte, MIT-Lizenz

Kokoro

Schnell, hochwertige Englisch-Stimmen, Apache-Lizenz

Fish Speech

Beste CJK, Produktions-Klonung, nicht-kommerziell

MeloTTS

Schnellste, Echtzeit, multi-akzentuiertes Englisch, MIT-Lizenz

Für die meisten Produktions-Deployments von Clore.ai:

  • Echtzeit-Sprach-Apps → MeloTTS oder Kokoro (kostenlos, schnell, MIT)

  • Voice-Cloning-Service → XTTS v2 oder Fish Speech (Lizenz prüfen)

  • Ausdrucksvolle Erzählung → Bark oder XTTS v2


Clore.ai GPU-Empfehlungen

Anwendungsfall
Empfohlene GPU
Geschätzte Kosten auf Clore.ai

Entwicklung/Tests

RTX 3090 (24GB)

~$0.12/gpu/hr

Produktion

RTX 4090 (24GB)

~$0.70/gpu/hr

Großmaßstab

A100 80GB

~$1.20/gpu/hr

💡 Alle Beispiele in diesem Leitfaden können bereitgestellt werden auf Clore.aiarrow-up-right GPU-Servern. Durchsuchen Sie verfügbare GPUs und mieten Sie stundenweise — keine Verpflichtungen, voller Root-Zugriff.

Zuletzt aktualisiert

War das hilfreich?