Dia TTS(Nari Labs)

使用 Nari Labs 的 Dia TTS 生成具有情感的多说话人对话

Dia by Nari Labs 是一个先进的文本转语音模型,专注于 逼真的多说话人对话。与一次只处理一位说话人的传统 TTS 不同,Dia 可生成多个说话人之间带有情感、笑声、犹豫和其他非语言提示的自然对话。参数量为 16 亿,可在任何 8GB+ GPU 上运行。

主要特性

  • 多说话人对话:一次生成 2+ 说话人的对话

  • 非语言提示:笑声 (笑),犹豫 (叹气),停顿 — 自动嵌入

  • 情感化语音:无须显式情感标签也能呈现自然语调

  • 16 亿参数:适配 RTX 3070/3080(8-10GB 显存)

  • Apache 2.0 许可证:完全商业使用

  • HuggingFace 集成:可与 Transformers 库配合使用

要求

组件
最低
推荐

GPU

RTX 3070(8GB)

RTX 3080(10GB)

显存

8GB

10GB+

内存

16GB

32GB

磁盘

10GB

15GB

Python

3.9+

3.11

推荐的 Clore.ai GPU:RTX 3080 10GB(约 $0.2–0.5/天)

安装

快速开始

基本多说话人对话

带情感与非语言提示

单一说话人

Gradio Web 界面

使用场景

  • 播客生成:从剧本创建对话式播客

  • 有声书对话:为角色生成具有不同声音的对话

  • 游戏对话:为 NPC 生成具有自然语音模式的对话

  • 训练数据:为 ASR 训练生成多样化语音数据集

  • 聊天机器人语音:具有情感回应的多轮对话

给 Clore.ai 用户的提示

  • RTX 3080 是理想选择:10GB 显存可轻松运行 Dia,费用约 $0.2–0.5/天

  • 批量生成:在循环中处理多个对话以最大化租赁时间

  • 将模型保存到持久存储:如果您的 Clore 实例有持久磁盘,请缓存模型以避免重新下载

  • 温度 0.7–0.9:较低 = 更一致,较高 = 更有表现力/多样化

  • 仅限英文:Dia 目前专注于英语 — 若需多语言,请参见 Qwen3-TTS 指南

# 使用固定种子以获得一致结果

问题
解决方案

CUDA 内存不足(out of memory)

使用 model.to("cuda", torch_dtype=torch.float16) 用于半精度

说话人听起来相似

为每位说话人添加更多文本/上下文;尝试更高的温度

非语言提示被忽略

确保格式正确: (笑), (叹气) 放在括号内

音频质量低

增加 num_steps 参数(如果可用);确保 24kHz 采样率

延伸阅读

最后更新于

这有帮助吗?