XTTS (Coqui)

Natürliche Spracherzeugung mit Voice-Cloning mittels Coqui XTTS

Erzeuge natürliche Sprache mit Stimmklonen mithilfe von Coqui XTTS.

circle-check

Mieten auf CLORE.AI

  1. Nach GPU-Typ, VRAM und Preis filtern

  2. Wählen On-Demand (Festpreis) oder Spot (Gebotspreis)

  3. Konfigurieren Sie Ihre Bestellung:

    • Docker-Image auswählen

    • Ports festlegen (TCP für SSH, HTTP für Web-UIs)

    • Umgebungsvariablen bei Bedarf hinzufügen

    • Startbefehl eingeben

  4. Zahlung auswählen: CLORE, BTC, oder USDT/USDC

  5. Bestellung erstellen und auf Bereitstellung warten

Zugriff auf Ihren Server

  • Verbindungsdetails finden Sie in Meine Bestellungen

  • Webschnittstellen: Verwenden Sie die HTTP-Port-URL

  • SSH: ssh -p <port> root@<proxy-address>

Was ist XTTS?

XTTS (von Coqui) bietet:

  • Hochwertige Text-zu-Sprache

  • Stimmklonen ab 6 Sekunden Audio

  • 17 unterstützte Sprachen

  • Emotionale Steuerung

  • Streaming-Unterstützung

Anforderungen

Modus
VRAM
Empfohlen

Inference

4GB

RTX 3060

Schnelle Inferenz

6GB

RTX 3080

Streaming

4GB

RTX 3060

Schnelle Bereitstellung

Docker-Image:

Ports:

Befehl:

Zugriff auf Ihren Dienst

Nach der Bereitstellung finden Sie Ihre http_pub URL in Meine Bestellungen:

  1. Gehen Sie zur Meine Bestellungen Seite

  2. Klicken Sie auf Ihre Bestellung

  3. Finden Sie die http_pub URL (z. B., abc123.clorecloud.net)

Verwenden Sie https://IHRE_HTTP_PUB_URL anstelle von localhost in den Beispielen unten.

Installation

Grundlegende Verwendung

Einfaches TTS

Stimmenklon

Mehrere Sprachen

Unterstützte Sprachen

Code
Sprache

en

Englisch

es

Spanisch

fr

Französisch

de

Deutsch

it

Italienisch

pt

Portugiesisch

pl

Polnisch

tr

Türkisch

ru

Russisch

nl

Niederländisch

cs

Tschechisch

ar

Arabisch

zh-cn

Chinesisch

ja

Japanisch

hu

Ungarisch

ko

Koreanisch

hi

Hindi

Streaming-TTS

Gradio-Oberfläche

API-Server

Batch-Verarbeitung

Feinabstimmung der Stimme

Für besseres Stimmklonen:

Audio-Vorverarbeitung

Leistung

Modus
GPU
Geschwindigkeit

Standard

RTX 3060

~0.5x Echtzeit

Standard

RTX 4090

~2x Echtzeit

Streaming

RTX 3060

~1x Echtzeit

Streaming

RTX 4090

~3x Echtzeit

Qualitätstipps

  • Verwende 6–15 Sekunden sauberes Referenzaudio

  • Vermeide Hintergrundgeräusche in der Referenz

  • Stimme und Text sollten dieselbe Sprache haben

  • Verwende mehrere Referenzproben für bessere Ergebnisse

Fehlerbehebung

Schlechte Sprachqualität

  • Sauberes Referenzaudio

  • Längere Referenz (10+ Sekunden)

  • Sprecherstil anpassen

Falsche Sprachpronomination

  • Stellen Sie den korrekten Sprachcode sicher

  • Verwende Referenz eines Muttersprachlers

Langsame Generierung

  • GPU-Inferenz aktivieren

  • Streaming-Modus verwenden

  • Textlänge pro Aufruf reduzieren

Kostenabschätzung

Typische CLORE.AI-Marktplatztarife (Stand 2024):

GPU
Stundensatz
Tagessatz
4-Stunden-Sitzung

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Preise variieren je nach Anbieter und Nachfrage. Prüfen Sie CLORE.AI Marketplacearrow-up-right auf aktuelle Preise.

Geld sparen:

  • Verwenden Sie Spot Markt für flexible Workloads (oft 30–50% günstiger)

  • Bezahlen mit CLORE Token

  • Preise bei verschiedenen Anbietern vergleichen

Nächste Schritte

Zuletzt aktualisiert

War das hilfreich?