Fish Speech

Exécuter Fish Speech TTS multilingue et clonage de voix zero-shot sur les GPU Clore.ai

Fish Speech est un système de synthèse vocale (TTS) multilingue de pointe avec des capacités de clonage de voix en zéro-shot. Avec plus de 15 000 étoiles sur GitHub, il prend en charge l'anglais, le chinois, le japonais, le coréen, le français, l'allemand, l'arabe, l'espagnol et plus encore — le tout à partir d'un seul modèle. En utilisant seulement 10 à 15 secondes d'audio de référence, Fish Speech peut cloner n'importe quelle voix avec une fidélité remarquable, ce qui le rend idéal pour la production de livres audio, le doublage, les assistants virtuels et la création de contenu à grande échelle.

Fish Speech utilise une architecture basée sur un transformeur avec un vocodeur VQGAN, atteignant des scores de naturalité proches de l'humain sur les benchmarks TTS standard. L'interface Web (Gradio) le rend accessible sans écrire une seule ligne de code, tandis que l'API REST permet une intégration transparente dans les pipelines de production.

circle-check

Exigences serveur

Paramètre
Minimum
Recommandé

GPU

NVIDIA RTX 3080 (10 Go)

NVIDIA RTX 4090 (24 Go)

VRAM

8 Go

16–24 Go

RAM

16 Go

32 Go

CPU

4 cœurs

8+ cœurs

Disque

20 Go

40 Go

OS

Ubuntu 20.04+

Ubuntu 22.04

CUDA

11.8+

12.1+

Ports

22, 7860

22, 7860

circle-info

Fish Speech fonctionne efficacement sur des GPU milieu de gamme (RTX 3080/3090). Pour l'inférence par lots ou la prise en charge de plusieurs utilisateurs simultanés, un RTX 4090 ou un A100 est recommandé.


Déploiement rapide sur CLORE.AI

La façon la plus rapide de faire fonctionner Fish Speech est via l'image Docker officielle directement depuis Docker Hub.

1. Trouvez un serveur adapté

Aller à CLORE.AI Marketplacearrow-up-right et filtrez par :

  • VRAM: ≥ 8 Go

  • GPU: RTX 3080, 3090, 4080, 4090, A100, H100

  • Disque: ≥ 20 Go

2. Configurez votre déploiement

Dans le formulaire de commande CLORE.AI, définissez les éléments suivants :

Image Docker :

Mappages de ports :

Variables d’environnement :

Commande de démarrage (optionnelle — démarre automatiquement le WebUI) :

3. Accédez à l'interface

Une fois déployé, ouvrez votre navigateur et rendez-vous à :

L'interface Web Gradio se chargera avec l'interface complète de Fish Speech prête à l'emploi.


Configuration étape par étape

Étape 1 : Connectez-vous en SSH à votre serveur

Étape 2 : Récupérer et exécuter le conteneur Docker

Étape 3 : Vérifier l'accès au GPU

Vous devriez voir votre GPU répertorié avec la VRAM disponible.

Étape 4 : Vérifier le téléchargement du modèle

Fish Speech télécharge automatiquement les poids du modèle lors de la première exécution (~3–5 Go). Surveillez la progression :

Attendez jusqu'à ce que vous voyiez :

Étape 5 : Accéder au WebUI

Naviguez vers http://<ip-serveur>:7860 dans votre navigateur.

Étape 6 : (Optionnel) Activer le serveur API


Exemples d’utilisation

Exemple 1 : Synthèse vocale basique via le WebUI

  1. Ouvrez le WebUI à http://<ip-serveur>:7860

  2. Saisissez le texte dans le "Texte" champ :

  3. Sélectionnez la langue : Anglais

  4. Cliquez "Générer"

  5. Téléchargez le .wav fichier


Exemple 2 : Clonage de voix Zero-Shot

Clonez n'importe quelle voix en utilisant seulement 10–15 secondes d'audio de référence :

  1. Dans le WebUI, naviguez vers le "Clonage de voix" onglet

  2. Téléchargez votre fichier audio de référence (.wav ou .mp3, 10–30 secondes)

  3. Saisissez la transcription de l'audio de référence (optionnel mais améliore la qualité)

  4. Saisissez le texte cible à synthétiser

  5. Cliquez "Cloner & Générer"

Le modèle analysera les caractéristiques de la voix et synthétisera la parole dans cette voix.


Exemple 3 : TTS via l'API (Python)


Exemple 4 : TTS multilingue


Exemple 5 : Traitement par lot de fichiers audio


Configuration

Docker Compose (Configuration de production)

Options de configuration clés

Option
Par défaut
Description

--listen

0.0.0.0

Interface à laquelle lier le serveur

--port

7860

Port pour le WebUI Gradio

--compile

false

Activer torch.compile pour une inférence plus rapide

--device

cuda

Périphérique à utiliser (cuda, cpu, mps)

--half

true

Utiliser la demi-précision FP16 (économise de la VRAM)

--num_samples

1

Nombre d'échantillons audio à générer

--max_new_tokens

1024

Nombre maximum de nouveaux tokens pour la génération

Variantes du modèle

Modèle
Taille
Langues
Remarques

fish-speech-1.4

~3 Go

8 langues

Dernière version stable

fish-speech-1.2-sft

~2,5 Go

8 langues

Variante fine-tunée

fish-speech-1.2

~2,5 Go

8 langues

Modèle de base


Conseils de performance

1. Activer torch.compile pour une inférence plus rapide

La première exécution sera plus lente (la compilation prend 2–5 minutes), mais les inférences suivantes seront 20–40% plus rapides.

2. Utiliser la demi-précision (FP16)

FP16 réduit l'utilisation de la VRAM d'environ 50% avec une perte de qualité minimale :

3. Précharger les voix de référence

Stockez les voix de référence fréquemment utilisées dans le répertoire de références du conteneur pour éviter le retraitement :

4. Optimisation de la mémoire GPU

5. Ajustement de la taille de lot

Pour les requêtes API par lot, tailles de lots optimales :

  • RTX 3080 (10 Go): batch_size = 1–2

  • RTX 3090/4090 (24 Go): batch_size = 4–8

  • A100 (40/80 Go): batch_size = 16–32


Dépannage

Problème : le conteneur ne démarre pas — CUDA introuvable

Problème : Erreur Out of Memory (OOM)

Problème : Port 7860 inaccessible

Problème : Échec du téléchargement du modèle / téléchargement lent

Problème : La qualité audio est médiocre

  • Assurez-vous que l'audio de référence est propre (pas de bruit de fond, fréquence d'échantillonnage ≥ 16 kHz)

  • Conservez l'audio de référence entre 10 et 30 secondes

  • Fournissez la transcription de l'audio de référence pour un meilleur alignement

  • Essayez d'augmenter --num_samples pour générer plusieurs options et choisir la meilleure

Problème : Le WebUI se charge mais la génération bloque


Liens


Recommandations GPU Clore.ai

Cas d’utilisation
GPU recommandé
Coût estimé sur Clore.ai

Développement/Test

RTX 3090 (24GB)

~$0.12/gpu/hr

TTS en production

RTX 4090 (24GB)

~$0.70/gpu/hr

Inférence à haut débit

A100 80GB

~$1.20/gpu/hr

💡 Tous les exemples de ce guide peuvent être déployés sur Clore.aiarrow-up-right serveurs GPU. Parcourez les GPU disponibles et louez à l’heure — sans engagement, avec accès root complet.

Mis à jour

Ce contenu vous a-t-il été utile ?