Fish Speech

Fish Speech mehrsprachiges TTS und Zero-Shot-Stimmenklonung auf Clore.ai-GPUs ausführen

Fish Speech ist ein hochmodernes mehrsprachiges Text-to-Speech (TTS)-System mit Zero-Shot-Voice-Cloning-Fähigkeiten. Mit über 15.000 GitHub-Sternen unterstützt es Englisch, Chinesisch, Japanisch, Koreanisch, Französisch, Deutsch, Arabisch, Spanisch und mehr — alles aus einem einzigen Modell. Mit nur 10–15 Sekunden Referenzaudio kann Fish Speech jede Stimme mit bemerkenswerter Treue klonen, was es ideal für Hörbuchproduktion, Synchronisation, virtuelle Assistenten und Content-Erstellung im großen Maßstab macht.

Fish Speech verwendet eine transformer-basierte Architektur mit einem VQGAN-Vocoder und erreicht nahezu menschliche Natürlichkeitswerte in standardisierten TTS-Benchmarks. Die WebUI (Gradio) macht es zugänglich, ohne eine einzige Codezeile zu schreiben, während die REST-API nahtlose Integration in Produktions-Pipelines ermöglicht.

circle-check

Serveranforderungen

Parameter
Minimum
Empfohlen

GPU

NVIDIA RTX 3080 (10 GB)

NVIDIA RTX 4090 (24 GB)

VRAM

8 GB

16–24 GB

RAM

16 GB

32 GB

CPU

4 Kerne

8+ Kerne

Festplatte

20 GB

40 GB

Betriebssystem

Ubuntu 20.04+

Ubuntu 22.04

CUDA

11.8+

12.1+

Ports

22, 7860

22, 7860

circle-info

Fish Speech läuft effizient auf Mittelklasse-GPUs (RTX 3080/3090). Für Batch-Inferenz oder das Bedienen mehrerer gleichzeitiger Nutzer wird eine RTX 4090 oder A100 empfohlen.


Schnelle Bereitstellung auf CLORE.AI

Der schnellste Weg, Fish Speech zum Laufen zu bringen, ist über das offizielle Docker-Image direkt von Docker Hub.

1. Finden Sie einen geeigneten Server

Gehe zu CLORE.AI Marketplacearrow-up-right und filtern Sie nach:

  • VRAM: ≥ 8 GB

  • GPU: RTX 3080, 3090, 4080, 4090, A100, H100

  • Festplatte: ≥ 20 GB

2. Konfigurieren Sie Ihre Bereitstellung

Geben Sie im CLORE.AI-Bestellformular Folgendes an:

Docker-Image:

Portzuordnungen:

Umgebungsvariablen:

Startbefehl (optional — startet die WebUI automatisch):

3. Greifen Sie auf die Oberfläche zu

Sobald bereitgestellt, öffnen Sie Ihren Browser und navigieren zu:

Die Gradio WebUI wird mit der vollständigen Fish Speech-Oberfläche geladen und ist einsatzbereit.


Schritt-für-Schritt-Einrichtung

Schritt 1: SSH auf Ihren Server

Schritt 2: Das Docker-Container-Image herunterladen und ausführen

Schritt 3: GPU-Zugriff verifizieren

Sie sollten Ihre GPU mit verfügbarem VRAM aufgelistet sehen.

Schritt 4: Modell-Download überprüfen

Fish Speech lädt Modellgewichte beim ersten Start automatisch herunter (~3–5 GB). Überwachen Sie den Fortschritt:

Warten Sie, bis Sie sehen:

Schritt 5: Auf die WebUI zugreifen

Navigieren Sie zu http://<server-ip>:7860 in Ihrem Browser.

Schritt 6: (Optional) API-Server aktivieren


Beispielanwendungen

Beispiel 1: Grundlegendes Text-to-Speech über die WebUI

  1. Öffnen Sie die WebUI unter http://<server-ip>:7860

  2. Geben Sie Text in das "Text" Feld ein:

  3. Sprache auswählen: Englisch

  4. Klicken Sie "Generieren"

  5. Laden Sie die resultierende .wav Datei herunter


Beispiel 2: Zero-Shot-Voice-Cloning

Klonen Sie jede Stimme mit nur 10–15 Sekunden Referenzaudio:

  1. Navigieren Sie in der WebUI zu "Voice Clone" Tab

  2. Laden Sie Ihre Referenz-Audiodatei hoch (.wav oder .mp3, 10–30 Sekunden)

  3. Geben Sie die Transkription des Referenzaudios ein (optional, verbessert aber die Qualität)

  4. Geben Sie den Zieltext ein, der synthetisiert werden soll

  5. Klicken Sie "Klonen & Generieren"

Das Modell analysiert die Stimmcharakteristika und synthetisiert Sprache in dieser Stimme.


Beispiel 3: API-basiertes TTS (Python)


Beispiel 4: Mehrsprachiges TTS


Beispiel 5: Stapelverarbeitung von Audiodateien


Konfiguration

Docker Compose (Produktions-Setup)

Wichtige Konfigurationsoptionen

Option
Standard
Beschreibung

--listen

0.0.0.0

Schnittstelle, an die der Server gebunden wird

--port

7860

Port für die Gradio WebUI

--compile

false

Aktiviere torch.compile für schnellere Inferenz

--device

cuda

Zu verwendendes Gerät (cuda, cpu, mps)

--half

true

Verwende FP16 Halbpräzision (spart VRAM)

--num_samples

1

Anzahl der zu erzeugenden Audiosamples

--max_new_tokens

1024

Maximale neue Token für die Generierung

Modellvarianten

Modell
Größe
Sprachen
Hinweise

fish-speech-1.4

~3 GB

8 Sprachen

Neueste stabile Version

fish-speech-1.2-sft

~2.5 GB

8 Sprachen

Feinabgestimmte Variante

fish-speech-1.2

~2.5 GB

8 Sprachen

Basismodell


Leistungs-Tipps

1. Aktivieren Sie torch.compile für schnellere Inferenz

Der erste Lauf wird langsamer sein (Kompilierung dauert 2–5 Minuten), aber nachfolgende Inferenz wird 20–40% schneller sein.

2. Verwenden Sie Halbpräzision (FP16)

FP16 reduziert die VRAM-Nutzung um ~50% bei minimalem Qualitätsverlust:

3. Referenzstimmen vorladen

Speichern Sie häufig verwendete Referenzstimmen im Referenzverzeichnis des Containers, um Wiederverarbeitung zu vermeiden:

4. GPU-Speicheroptimierung

5. Anpassung der Batch-Größe

Für Batch-API-Anfragen optimale Batch-Größen:

  • RTX 3080 (10 GB): batch_size = 1–2

  • RTX 3090/4090 (24 GB): batch_size = 4–8

  • A100 (40/80 GB): batch_size = 16–32


Fehlerbehebung

Problem: Container startet nicht — CUDA nicht gefunden

Problem: Out of Memory (OOM)-Fehler

Problem: Port 7860 nicht erreichbar

Problem: Modell-Download schlägt fehl / langsamer Download

Problem: Audioqualität ist schlecht

  • Stellen Sie sicher, dass das Referenzaudio sauber ist (kein Hintergrundrauschen, Abtastrate 16 kHz+)

  • Halten Sie das Referenzaudio zwischen 10–30 Sekunden

  • Geben Sie die Transkription des Referenzaudios für eine bessere Ausrichtung an

  • Versuchen Sie, --num_samples zu erhöhen, um mehrere Optionen zu erzeugen und die beste auszuwählen

Problem: WebUI lädt, aber die Generierung hängt



Clore.ai GPU-Empfehlungen

Anwendungsfall
Empfohlene GPU
Geschätzte Kosten auf Clore.ai

Entwicklung/Tests

RTX 3090 (24GB)

~$0.12/gpu/hr

Produktions-TTS

RTX 4090 (24GB)

~$0.70/gpu/hr

Hochdurchsatz-Inferenz

A100 80GB

~$1.20/gpu/hr

💡 Alle Beispiele in diesem Leitfaden können bereitgestellt werden auf Clore.aiarrow-up-right GPU-Servern. Durchsuchen Sie verfügbare GPUs und mieten Sie stundenweise — keine Verpflichtungen, voller Root-Zugriff.

Zuletzt aktualisiert

War das hilfreich?