Dia TTS (Nari Labs)

Générez des dialogues multi-locuteurs avec émotion en utilisant Dia TTS de Nari Labs

Dia de Nari Labs est un modèle avancé de synthèse vocale qui se spécialise dans dialogues multi-intervenants réalistes. Contrairement aux TTS traditionnels qui traitent un seul locuteur à la fois, Dia génère des conversations naturelles entre plusieurs intervenants avec émotion, rires, hésitations et autres indices non verbaux. Avec 1,6 milliard de paramètres, il fonctionne sur n'importe quel GPU 8 Go+.

Principales caractéristiques

  • Dialogue multi-intervenants: Générer des conversations entre 2+ locuteurs en une seule passe

  • Indices non verbaux: Rires (rit), hésitation (soupire), pauses — intégrées automatiquement

  • Voix émotionnelle: Intonation naturelle sans balises d'émotion explicites

  • 1,6B paramètres: Tient sur RTX 3070/3080 (8-10 Go de VRAM)

  • Licence Apache 2.0: Utilisation commerciale complète

  • Intégration HuggingFace: Fonctionne avec la bibliothèque Transformers

Exigences

Composant
Minimum
Recommandé

GPU

RTX 3070 (8 Go)

RTX 3080 (10 Go)

VRAM

8 Go

10 Go+

RAM

16Go

32Go

Disque

10Go

15 Go

Python

3.9+

3.11

GPU recommandé par Clore.ai: RTX 3080 10 Go (~0,2–0,5 $/jour)

Installation

Démarrage rapide

Dialogue multi-intervenants basique

Avec émotion et indices non verbaux

Locuteur unique

Interface Web Gradio

Cas d'utilisation

  • Génération de podcasts: Créer des podcasts conversationnels à partir de scripts

  • Dialogues de livres audio: Générer des conversations de personnages avec des voix distinctes

  • Dialogues de jeux: Conversations PNJ avec des schémas de parole naturels

  • Données d'entraînement: Générer des jeux de données vocaux divers pour l'entraînement ASR

  • Voix de chatbot: Dialogue multi-tours avec réponses émotionnelles

Conseils pour les utilisateurs de Clore.ai

  • La RTX 3080 est idéale: 10 Go de VRAM gèrent Dia facilement à ~0,2–0,5 $/jour

  • Génération par lot: Traitez plusieurs dialogues en boucle pour maximiser votre temps de location

  • Enregistrez les modèles sur un stockage persistant: Si votre instance Clore dispose d'un disque persistant, mettez en cache le modèle pour éviter de le retélécharger

  • Température 0,7–0,9: Plus bas = plus cohérent, plus haut = plus expressif/varié

  • Anglais uniquement: Dia se concentre actuellement sur l'anglais — pour le multilingue, voir le guide Qwen3-TTS

Dépannage

Problème
Solution

CUDA out of memory

Utilisez model.to("cuda", torch_dtype=torch.float16) pour la demi-précision

Les locuteurs se ressemblent

Ajoutez plus de texte/contexte par locuteur ; essayez une température plus élevée

Indices non verbaux ignorés

Assurez-vous du format correct : (rit), (soupire) entre parenthèses

Qualité audio faible

Augmentez num_steps paramètre si disponible ; assurez-vous d'un taux d'échantillonnage de 24 kHz

Lectures complémentaires

Mis à jour

Ce contenu vous a-t-il été utile ?