> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-fr/audio-et-voix/f5-tts.md).

# F5-TTS

Générez un discours naturel avec F5-TTS - un système TTS rapide et fluide.

{% hint style="success" %}
Tous les exemples peuvent être exécutés sur des serveurs GPU loués via [CLORE.AI Marketplace](https://clore.ai/marketplace).
{% endhint %}

## Location sur CLORE.AI

1. Visitez [CLORE.AI Marketplace](https://clore.ai/marketplace)
2. Filtrer par type de GPU, VRAM et prix
3. Choisir **À la demande** (tarif fixe) ou **Spot** (prix d'enchère)
4. Configurez votre commande :
   * Sélectionnez l'image Docker
   * Définissez les ports (TCP pour SSH, HTTP pour les interfaces web)
   * Ajoutez des variables d'environnement si nécessaire
   * Entrez la commande de démarrage
5. Sélectionnez le paiement : **CLORE**, **BTC**, ou **USDT/USDC**
6. Créez la commande et attendez le déploiement

### Accédez à votre serveur

* Trouvez les détails de connexion dans **Mes commandes**
* Interfaces Web : utilisez l'URL du port HTTP
* SSH : `ssh -p <port> root@<adresse-proxy>`

## Qu'est-ce que F5-TTS ?

F5-TTS offre :

* Inférence rapide (plus rapide que le temps réel)
* Prosodie et intonation naturelles
* Clonage de voix en zero-shot
* Prise en charge multilingue

## Ressources

* **GitHub :** [SWivid/F5-TTS](https://github.com/SWivid/F5-TTS)
* **HuggingFace :** [SWivid/F5-TTS](https://huggingface.co/SWivid/F5-TTS)
* **Article :** [Article F5-TTS](https://arxiv.org/abs/2410.06885)
* **Démo :** [Espace HuggingFace](https://huggingface.co/spaces/mrfakename/E2-F5-TTS)

## Matériel recommandé

| Composant | Minimum       | Recommandé    | Optimal       |
| --------- | ------------- | ------------- | ------------- |
| GPU       | RTX 3060 12GB | RTX 4080 16GB | RTX 4090 24GB |
| VRAM      | 6 Go          | 12Go          | 16Go          |
| CPU       | 4 cœurs       | 8 cœurs       | 16 cœurs      |
| RAM       | 16Go          | 32Go          | 64Go          |
| Stockage  | SSD 20 Go     | 50Go NVMe     | 100Go NVMe    |
| Internet  | 100 Mbps      | 500 Mbps      | 1 Gbps        |

## Déploiement rapide sur CLORE.AI

**Image Docker :**

```
pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime
```

**Ports :**

```
22/tcp
7860/http
```

**Commande :**

```bash
pip install f5-tts && \
f5-tts-webui
```

## Accéder à votre service

Après le déploiement, trouvez votre `http_pub` URL dans **Mes commandes**:

1. Aller à la **Mes commandes** page
2. Cliquez sur votre commande
3. Trouvez l' `http_pub` URL (par ex., `abc123.clorecloud.net`)

Utilisez `https://VOTRE_HTTP_PUB_URL` au lieu de `localhost` dans les exemples ci-dessous.

## Installation

```bash
pip install f5-tts

# Ou depuis la source
git clone https://github.com/SWivid/F5-TTS.git
cd F5-TTS
pip install -e .
```

## Ce que vous pouvez créer

### Contenu vocal

* Production de podcasts
* Narration de livres audio
* Voix off pour vidéos

### Accessibilité

* Lecteurs d'écran
* Lecteurs de documents
* Matériel pédagogique

### Applications interactives

* Assistants vocaux
* PNJ de jeux vidéo
* Bots de service client

### Projets créatifs

* Voix de personnages
* Fictions audio
* Voix musicales

## Utilisation de base

### TTS simple

```python
from f5_tts import F5TTS

# Initialiser
tts = F5TTS(device="cuda")

# Générer la parole
audio = tts.generate(
    text="Bonjour ! Ceci est F5-TTS générant un discours naturel.",
    output_path="output.wav"
)
```

### Clonage de voix

```python
from f5_tts import F5TTS

tts = F5TTS(device="cuda")

# Cloner la voix à partir d'un audio de référence
audio = tts.generate(
    text="Ceci est ma voix clonée parlant un nouveau texte.",
    ref_audio="reference_voice.wav",
    ref_text="Ceci est le texte de référence prononcé dans l'audio.",
    output_path="cloned_output.wav"
)
```

## Prise en charge multilingue

```python
from f5_tts import F5TTS

tts = F5TTS(device="cuda")

# English
tts.generate(
    text="Hello, how are you today?",
    ref_audio="english_speaker.wav",
    output_path="english.wav"
)

# Chinese
tts.generate(
    text="你好，今天怎么样？",
    ref_audio="chinese_speaker.wav",
    output_path="chinese.wav"
)

# Français
tts.generate(
    text="Bonjour, comment allez-vous?",
    ref_audio="french_speaker.wav",
    output_path="french.wav"
)
```

## Traitement par lots

```python
from f5_tts import F5TTS
import os

tts = F5TTS(device="cuda")

texts = [
    "Bienvenue à notre démonstration produit.",
    "Aujourd'hui nous vous présenterons les fonctionnalités clés.",
    "Commençons par le tableau de bord principal.",
    "Comme vous pouvez le voir, l'interface est intuitive.",
    "Merci d'avoir regardé !"
]

ref_audio = "narrator_voice.wav"
ref_text = "Exemple de texte de l'audio de référence."
output_dir = "./narration"
os.makedirs(output_dir, exist_ok=True)

for i, text in enumerate(texts):
    print(f"Génération {i+1}/{len(texts)} : {text[:50]}...")

    tts.generate(
        text=text,
        ref_audio=ref_audio,
        ref_text=ref_text,
        output_path=f"{output_dir}/segment_{i:03d}.wav"
    )
```

## Audio longue durée

```python
from f5_tts import F5TTS

tts = F5TTS(device="cuda")

long_text = """
Bienvenue dans ce guide complet sur l'apprentissage automatique.
Dans ce chapitre, nous explorerons les fondamentaux des réseaux neuronaux.
Les réseaux neuronaux sont des systèmes informatiques inspirés des réseaux neuronaux biologiques.
Ils se composent de nœuds interconnectés qui traitent l'information.
Commençons par les concepts de base.
"""

# F5-TTS gère les longs textes en les découpant en phrases
audio = tts.generate(
    text=long_text,
    ref_audio="narrator.wav",
    output_path="long_narration.wav",
    chunk_size=200  # Caractères par segment
)
```

## Interface Gradio

```python
import gradio as gr
from f5_tts import F5TTS
import tempfile

tts = F5TTS(device="cuda")

def generate_speech(text, ref_audio, ref_text):
    with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as f:
        tts.generate(
            text=text,
            ref_audio=ref_audio,
            ref_text=ref_text,
            output_path=f.name
        )
        return f.name

demo = gr.Interface(
    fn=generate_speech,
    inputs=[
        gr.Textbox(label="Texte à prononcer", lines=5),
        gr.Audio(type="filepath", label="Voix de référence"),
        gr.Textbox(label="Texte de référence", lines=2)
    ],
    outputs=gr.Audio(label="Discours généré"),
    title="Clonage de voix F5-TTS",
    description="Clonez n'importe quelle voix avec F5-TTS sur les serveurs CLORE.AI"
)

demo.launch(server_name="0.0.0.0", server_port=7860)
```

## Serveur API

```python
from fastapi import FastAPI, UploadFile, File, Form
from fastapi.responses import FileResponse
from f5_tts import F5TTS
import tempfile

app = FastAPI()
tts = F5TTS(device="cuda")

@app.post("/synthesize")
async def synthesize(
    text: str = Form(...),
    ref_audio: UploadFile = File(...),
    ref_text: str = Form(...)
):
    with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as ref_file:
        ref_file.write(await ref_audio.read())
        ref_path = ref_file.name

    with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as out_file:
        tts.generate(
            text=text,
            ref_audio=ref_path,
            ref_text=ref_text,
            output_path=out_file.name
        )
        return FileResponse(out_file.name, media_type="audio/wav")

# Lancer : uvicorn server:app --host 0.0.0.0 --port 8000
```

## Performances

| Longueur du texte | GPU      | Temps de génération | Facteur temps réel |
| ----------------- | -------- | ------------------- | ------------------ |
| 100 caractères    | RTX 3090 | 0,5 s               | 5x                 |
| 100 caractères    | RTX 4090 | 0,3 s               | 8x                 |
| 500 caractères    | RTX 4090 | 1,2 s               | 10x                |
| 1000 caractères   | A100     | 2.0s                | 12x                |

## Problèmes courants et solutions

### Mauvaise correspondance de voix

**Problème :** La voix générée ne correspond pas à la référence

**Solutions :**

* Utilisez 5 à 15 secondes d'audio de référence clair
* Fournissez une transcription précise du texte de référence
* Évitez le bruit de fond dans la référence
* Faites correspondre la langue du texte et de la référence

### Problèmes de prononciation

**Problème :** Prononciation incorrecte de mots ou de noms

**Solutions :**

```python

# Utilisez des indices phonétiques pour les mots difficiles
text = "Bienvenue sur la plateforme CLORE (prononcé KLOR) AI."

# Ou utilisez un formatage de type SSML
text = "Le PDG, John Smith (SMIHTH), prendra la parole."
```

### Problèmes de qualité audio

**Problème :** La sortie sonne robotique ou déformée

**Solutions :**

* Utilisez un audio de référence de haute qualité (24 kHz+)
* Nettoyez la référence du bruit
* Essayez différents échantillons de référence
* Augmentez les paramètres de qualité de génération

### Problèmes de mémoire

**Problème :** Manque de mémoire pour les longs textes

**Solutions :**

```python

# Traitez en segments plus petits
tts.generate(
    text=long_text,
    chunk_size=100,  # Segments plus petits
    overlap=20  # Transitions fluides
)
```

### Génération lente

**Problème :** La génération prend trop de temps

**Solutions :**

* Utilisez l'inférence GPU (CUDA)
* Réduisez chunk\_size pour un traitement plus rapide
* Utilisez une RTX 4090 ou meilleure
* Activez la demi-précision (fp16)

## Dépannage

### La voix ne correspond pas à la référence

* Utilisez 5 à 15 secondes d'audio de référence clair
* Transcrivez précisément le texte de référence
* Évitez le bruit de fond dans la référence

### Problèmes de qualité audio

* Utilisez une fréquence d'échantillonnage élevée pour la référence (24 kHz+)
* Nettoyez la référence du bruit
* Essayez différents échantillons de référence

### Génération lente

* Utilisez CUDA (pas le CPU)
* Réduisez la longueur du texte ou divisez-le en segments
* Utilisez des tailles de lot plus petites

### Inadéquation de la langue

* Faites correspondre la langue du texte avec celle de l'audio de référence
* Certaines langues nécessitent des modèles spécifiques

## Estimation des coûts

Tarifs typiques du marché CLORE.AI (à partir de 2024) :

| GPU       | Tarif horaire | Tarif journalier | Session de 4 heures |
| --------- | ------------- | ---------------- | ------------------- |
| RTX 3060  | \~$0.03       | \~$0.70          | \~$0.12             |
| RTX 3090  | \~$0.06       | \~$1.50          | \~$0.25             |
| RTX 4090  | \~$0.10       | \~$2.30          | \~$0.40             |
| A100 40GB | \~$0.17       | \~$4.00          | \~$0.70             |
| A100 80GB | \~$0.25       | \~$6.00          | \~$1.00             |

*Les prix varient selon le fournisseur et la demande. Vérifiez* [*CLORE.AI Marketplace*](https://clore.ai/marketplace) *pour les tarifs actuels.*

**Économisez de l'argent :**

* Utilisez **Spot** market pour les charges de travail flexibles (souvent 30-50 % moins cher)
* Payer avec **CLORE** jetons
* Comparer les prix entre différents fournisseurs

## Prochaines étapes

* [XTTS](/guides/guides_v2-fr/audio-et-voix/xtts-coqui.md) - TTS alternatif
* [Bark TTS](/guides/guides_v2-fr/audio-et-voix/bark-tts.md) - TTS expressif
* [SadTalker](/guides/guides_v2-fr/tetes-parlantes/sadtalker.md) - Têtes parlantes


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-fr/audio-et-voix/f5-tts.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.