XTTS (Coqui)

Génération de parole naturelle avec clonage vocal en utilisant Coqui XTTS

Générez une parole naturelle avec clonage de voix en utilisant Coqui XTTS.

circle-check

Location sur CLORE.AI

  1. Filtrer par type de GPU, VRAM et prix

  2. Choisir À la demande (tarif fixe) ou Spot (prix d'enchère)

  3. Configurez votre commande :

    • Sélectionnez l'image Docker

    • Définissez les ports (TCP pour SSH, HTTP pour les interfaces web)

    • Ajoutez des variables d'environnement si nécessaire

    • Entrez la commande de démarrage

  4. Sélectionnez le paiement : CLORE, BTC, ou USDT/USDC

  5. Créez la commande et attendez le déploiement

Accédez à votre serveur

  • Trouvez les détails de connexion dans Mes commandes

  • Interfaces Web : utilisez l'URL du port HTTP

  • SSH : ssh -p <port> root@<adresse-proxy>

Qu'est-ce que XTTS ?

XTTS (par Coqui) offre :

  • Synthèse vocale de haute qualité

  • Clonage de voix à partir de 6 secondes d'audio

  • 17 langues prises en charge

  • Contrôle émotionnel

  • Prise en charge du streaming

Exigences

Mode
VRAM
Recommandé

Inférence

4 Go

RTX 3060

Inférence rapide

6 Go

RTX 3080

Streaming

4 Go

RTX 3060

Déploiement rapide

Image Docker :

Ports :

Commande :

Accéder à votre service

Après le déploiement, trouvez votre http_pub URL dans Mes commandes:

  1. Aller à la Mes commandes page

  2. Cliquez sur votre commande

  3. Trouvez l' http_pub URL (par ex., abc123.clorecloud.net)

Utilisez https://VOTRE_HTTP_PUB_URL au lieu de localhost dans les exemples ci-dessous.

Installation

Utilisation de base

TTS simple

Clonage de voix

Plusieurs langues

Langues prises en charge

Code
Langue

en

Anglais

es

Espagnol

fr

Français

de

Allemand

it

Italien

pt

Portugais

pl

Polonais

tr

Turc

ru

Russe

nl

Néerlandais

cs

Tchèque

ar

Arabe

zh-cn

Chinois

ja

Japonais

hu

Hongrois

ko

Coréen

hi

Hindi

TTS en streaming

Interface Gradio

Serveur API

Traitement par lots

Affinage de la voix

Pour un meilleur clonage de voix :

Prétraitement audio

Performances

Mode
GPU
Vitesse

Standard

RTX 3060

~0.5x en temps réel

Standard

RTX 4090

~2x en temps réel

Streaming

RTX 3060

~1x en temps réel

Streaming

RTX 4090

~3x en temps réel

Conseils de qualité

  • Utiliser 6 à 15 secondes d'audio de référence propre

  • Évitez le bruit de fond dans la référence

  • Faites correspondre la langue du texte et de la référence

  • Utiliser plusieurs échantillons de référence pour de meilleurs résultats

Dépannage

Mauvaise qualité de la voix

  • Audio de référence propre

  • Référence plus longue (10+ secondes)

  • Adapter le style de parole

Mauvaise prononciation de la langue

  • Assurer le code langue correct

  • Utiliser une référence d'un locuteur natif

Génération lente

  • Activer l'inférence GPU

  • Utiliser le mode streaming

  • Réduire la longueur du texte par appel

Estimation des coûts

Tarifs typiques du marché CLORE.AI (à partir de 2024) :

GPU
Tarif horaire
Tarif journalier
Session de 4 heures

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Les prix varient selon le fournisseur et la demande. Vérifiez CLORE.AI Marketplacearrow-up-right pour les tarifs actuels.

Économisez de l'argent :

  • Utilisez Spot market pour les charges de travail flexibles (souvent 30-50 % moins cher)

  • Payer avec CLORE jetons

  • Comparer les prix entre différents fournisseurs

Prochaines étapes

Mis à jour

Ce contenu vous a-t-il été utile ?