F5-TTS

Schnelles und flüssiges Text-zu-Sprache mit F5-TTS auf Clore.ai GPUs

Erzeuge natürliche Sprache mit F5-TTS – einem schnellen und flüssigen TTS-System.

Alle Beispiele können auf GPU-Servern ausgeführt werden, die über CLORE.AI Marketplace.

Mieten auf CLORE.AI

Besuchen Sie CLORE.AI Marketplace
Nach GPU-Typ, VRAM und Preis filtern
Wählen On-Demand (Festpreis) oder Spot (Gebotspreis)
Konfigurieren Sie Ihre Bestellung:
- Docker-Image auswählen
- Ports festlegen (TCP für SSH, HTTP für Web-UIs)
- Umgebungsvariablen bei Bedarf hinzufügen
- Startbefehl eingeben
Zahlung auswählen: CLORE, BTC, oder USDT/USDC
Bestellung erstellen und auf Bereitstellung warten

Zugriff auf Ihren Server

Verbindungsdetails finden Sie in Meine Bestellungen
Webschnittstellen: Verwenden Sie die HTTP-Port-URL
SSH: ssh -p <port> root@<proxy-address>

Was ist F5-TTS?

F5-TTS bietet:

Schnelle Inferenz (schneller als Echtzeit)
Natürliche Prosodie und Intonation
Zero-Shot Stimmmodellierung (Voice Cloning)
Mehrsprachige Unterstützung

Ressourcen

GitHub: SWivid/F5-TTS
HuggingFace: SWivid/F5-TTS
Paper: F5-TTS Paper
Demo: HuggingFace Space

Empfohlene Hardware

Komponente

Minimum

Schnelle Bereitstellung auf CLORE.AI

Docker-Image:

pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime

Ports:

22/tcp
7860/http

Befehl:

pip install f5-tts && \
f5-tts-webui

Zugriff auf Ihren Dienst

Nach der Bereitstellung finden Sie Ihre http_pub URL in Meine Bestellungen:

Gehen Sie zur Meine Bestellungen Seite
Klicken Sie auf Ihre Bestellung
Finden Sie die http_pub URL (z. B., abc123.clorecloud.net)

Verwenden Sie https://IHRE_HTTP_PUB_URL anstelle von localhost in den Beispielen unten.

Installation

pip install f5-tts

# Oder aus dem Quellcode
git clone https://github.com/SWivid/F5-TTS.git
cd F5-TTS
pip install -e .

Was Sie erstellen können

Stimmeninhalte

Podcast-Produktion
Hörbucherzählung
Voice-over für Videos

Barrierefreiheit

Screenreader
Dokumentenleser
Lernmaterialien

Interaktive Anwendungen

Sprachassistenten
Spiel-NPCs
Kundendienst-Bots

Kreative Projekte

Charakterstimmen
Hörspiele
Musikalische Gesangsstimmen

Grundlegende Verwendung

Einfaches TTS

from f5_tts import F5TTS

# Initialisieren
tts = F5TTS(device="cuda")

# Sprache generieren
audio = tts.generate(
    text="Hello! This is F5-TTS generating natural speech.",
    output_path="output.wav"
)

Stimmenklon

from f5_tts import F5TTS

tts = F5TTS(device="cuda")

# Stimme aus Referenzaudio klonen
audio = tts.generate(
    text="This is my cloned voice speaking new text.",
    ref_audio="reference_voice.wav",
    ref_text="This is the reference text spoken in the audio.",
    output_path="cloned_output.wav"
)

Mehrsprachige Unterstützung

from f5_tts import F5TTS

tts = F5TTS(device="cuda")

# Englisch
tts.generate(
    text="Hello, how are you today?",
    ref_audio="english_speaker.wav",
    output_path="english.wav"
)

# Chinesisch
tts.generate(
    text="你好，今天怎么样？",
    ref_audio="chinese_speaker.wav",
    output_path="chinese.wav"
)

# Französisch
tts.generate(
    text="Bonjour, comment allez-vous?",
    ref_audio="french_speaker.wav",
    output_path="french.wav"
)

Batch-Verarbeitung

from f5_tts import F5TTS
import os

tts = F5TTS(device="cuda")

texts = [
    "Welcome to our product demonstration.",
    "Today we'll show you the key features.",
    "Let's start with the main dashboard.",
    "As you can see, the interface is intuitive.",
    "Thank you for watching!"
]

ref_audio = "narrator_voice.wav"
ref_text = "Sample text from the reference audio."
output_dir = "./narration"
os.makedirs(output_dir, exist_ok=True)

for i, text in enumerate(texts):
    print(f"Generating {i+1}/{len(texts)}: {text[:50]}...")

    tts.generate(
        text=text,
        ref_audio=ref_audio,
        ref_text=ref_text,
        output_path=f"{output_dir}/segment_{i:03d}.wav"
    )

Langform-Audio

from f5_tts import F5TTS

tts = F5TTS(device="cuda")

long_text = """
Welcome to this comprehensive guide on machine learning.
In this chapter, we will explore the fundamentals of neural networks.
Neural networks are computing systems inspired by biological neural networks.
They consist of interconnected nodes that process information.
Let's begin with the basic concepts.
"""

# F5-TTS handles long text by splitting into sentences
audio = tts.generate(
    text=long_text,
    ref_audio="narrator.wav",
    output_path="long_narration.wav",
    chunk_size=200  # Characters per chunk
)

Gradio-Oberfläche

import gradio as gr
from f5_tts import F5TTS
import tempfile

tts = F5TTS(device="cuda")

def generate_speech(text, ref_audio, ref_text):
    with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as f:
        tts.generate(
            text=text,
            ref_audio=ref_audio,
            ref_text=ref_text,
            output_path=f.name
        )
        return f.name

demo = gr.Interface(
    fn=generate_speech,
    inputs=[
        gr.Textbox(label="Text to Speak", lines=5),
        gr.Audio(type="filepath", label="Reference Voice"),
        gr.Textbox(label="Reference Text", lines=2)
    ],
    outputs=gr.Audio(label="Generated Speech"),
    title="F5-TTS Voice Cloning",
    description="Clone any voice with F5-TTS on CLORE.AI servers"
)

demo.launch(server_name="0.0.0.0", server_port=7860)

API-Server

from fastapi import FastAPI, UploadFile, File, Form
from fastapi.responses import FileResponse
from f5_tts import F5TTS
import tempfile

app = FastAPI()
tts = F5TTS(device="cuda")

@app.post("/synthesize")
async def synthesize(
    text: str = Form(...),
    ref_audio: UploadFile = File(...),
    ref_text: str = Form(...)
):
    with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as ref_file:
        ref_file.write(await ref_audio.read())
        ref_path = ref_file.name

    with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as out_file:
        tts.generate(
            text=text,
            ref_audio=ref_path,
            ref_text=ref_text,
            output_path=out_file.name
        )
        return FileResponse(out_file.name, media_type="audio/wav")

# Ausführen: uvicorn server:app --host 0.0.0.0 --port 8000

Leistung

Textlänge

GPU

Generierungszeit

Echtzeitfaktor

100 Zeichen

RTX 3090

0.5s

100 Zeichen

RTX 4090

0.3s

500 Zeichen

RTX 4090

1.2s

10x

1000 Zeichen

A100

2.0s

12x

Häufige Probleme & Lösungen

Schlechte Stimmenübereinstimmung

Problem: Generierte Stimme stimmt nicht mit der Referenz überein

Lösungen:

Verwende 5–15 Sekunden klaren Referenzton
Gib eine genaue Transkription des Referenztexts an
Vermeide Hintergrundgeräusche in der Referenz
Stimme und Text sollten dieselbe Sprache haben

Ausspracheprobleme

Problem: Wörter oder Namen werden falsch ausgesprochen

Lösungen:


# Verwende phonetische Hinweise für schwierige Wörter
text = "Welcome to CLORE (pronounced KLOR) AI platform."

# Oder verwende SSML-ähnliche Formatierung
text = "The CEO, John Smith (SMIHTH), will speak."

Audioqualitätsprobleme

Problem: Ausgabe klingt robotisch oder verzerrt

Lösungen:

Verwende hochwertige Referenzaufnahmen (24 kHz+)
Reinige die Referenz von Störgeräuschen
Probiere verschiedene Referenzbeispiele aus
Erhöhe die Generierungsqualitäts-Einstellungen

Speicherprobleme

Problem: Kein Speicher für lange Texte

Lösungen:


# Verarbeite in kleineren Abschnitten
tts.generate(
    text=long_text,
    chunk_size=100,  # Kleinere Abschnitte
    overlap=20  # Sanfte Übergänge
)

Langsame Generierung

Problem: Dauert zu lange zu generieren

Lösungen:

Verwende GPU-Inferenz (CUDA)
Reduziere chunk_size für schnellere Verarbeitung
Verwende eine RTX 4090 oder besser
Aktiviere Halbfeld-Präzision (fp16)

Fehlerbehebung

Stimme stimmt nicht mit der Referenz überein

Verwende 5–15 Sekunden klaren Referenzton
Transkribiere den Referenztext genau
Vermeide Hintergrundgeräusche in der Referenz

Audioqualitätsprobleme

Verwende Referenzen mit hoher Abtastrate (24 kHz+)
Reinige die Referenz von Störgeräuschen
Probiere verschiedene Referenzbeispiele aus

Langsame Generierung

Verwende CUDA (nicht CPU)
Reduziere die Textlänge oder teile sie in Abschnitte
Verwende kleinere Batch-Größen

Sprachinkongruenz

Stimme und Referenzaudio sollten dieselbe Sprache haben
Einige Sprachen benötigen spezielle Modelle

Kostenabschätzung

Typische CLORE.AI-Marktplatztarife (Stand 2024):

GPU

Stundensatz

Tagessatz

4-Stunden-Sitzung

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Preise variieren je nach Anbieter und Nachfrage. Prüfen Sie CLORE.AI Marketplace auf aktuelle Preise.

Geld sparen:

Verwenden Sie Spot Markt für flexible Workloads (oft 30–50% günstiger)
Bezahlen mit CLORE Token
Preise bei verschiedenen Anbietern vergleichen

Nächste Schritte

XTTS - Alternative TTS
Bark TTS - Expressives TTS
SadTalker - Talking Heads

VorherigeXTTS (Coqui)NächsteZonos TTS Stimmenklonung

Zuletzt aktualisiert vor 1 Monat

War das hilfreich?

hashtagMieten auf CLORE.AI

hashtagZugriff auf Ihren Server

hashtagWas ist F5-TTS?

hashtagRessourcen

hashtagEmpfohlene Hardware

hashtagSchnelle Bereitstellung auf CLORE.AI

hashtagZugriff auf Ihren Dienst

hashtagInstallation

hashtagWas Sie erstellen können

hashtagStimmeninhalte

hashtagBarrierefreiheit

hashtagInteraktive Anwendungen

hashtagKreative Projekte

hashtagGrundlegende Verwendung

hashtagEinfaches TTS

hashtagStimmenklon

hashtagMehrsprachige Unterstützung

hashtagBatch-Verarbeitung

hashtagLangform-Audio

hashtagGradio-Oberfläche

hashtagAPI-Server

hashtagLeistung

hashtagHäufige Probleme & Lösungen

hashtagSchlechte Stimmenübereinstimmung

hashtagAusspracheprobleme

hashtagAudioqualitätsprobleme

hashtagSpeicherprobleme

hashtagLangsame Generierung

hashtagFehlerbehebung

hashtagStimme stimmt nicht mit der Referenz überein

hashtagAudioqualitätsprobleme

hashtagLangsame Generierung

hashtagSprachinkongruenz

hashtagKostenabschätzung

hashtagNächste Schritte

Mieten auf CLORE.AI

Zugriff auf Ihren Server

Was ist F5-TTS?

Ressourcen

Empfohlene Hardware

Schnelle Bereitstellung auf CLORE.AI

Zugriff auf Ihren Dienst

Installation

Was Sie erstellen können

Stimmeninhalte

Barrierefreiheit

Interaktive Anwendungen

Kreative Projekte

Grundlegende Verwendung

Einfaches TTS

Stimmenklon

Mehrsprachige Unterstützung

Batch-Verarbeitung

Langform-Audio

Gradio-Oberfläche

API-Server

Leistung

Häufige Probleme & Lösungen

Schlechte Stimmenübereinstimmung

Ausspracheprobleme

Audioqualitätsprobleme

Speicherprobleme

Langsame Generierung

Fehlerbehebung

Stimme stimmt nicht mit der Referenz überein

Audioqualitätsprobleme

Langsame Generierung

Sprachinkongruenz

Kostenabschätzung

Nächste Schritte