XTTS(Coqui)

使用 Coqui XTTS 进行具有语音克隆的自然语音生成

使用 Coqui XTTS 生成具有语音克隆的自然语音。

circle-check

在 CLORE.AI 上租用

  1. 按 GPU 类型、显存和价格筛选

  2. 选择 按需 (固定费率)或 竞价 (出价价格)

  3. 配置您的订单:

    • 选择 Docker 镜像

    • 设置端口(用于 SSH 的 TCP,Web 界面的 HTTP)

    • 如有需要,添加环境变量

    • 输入启动命令

  4. 选择支付方式: CLORE, BTC,或 USDT/USDC

  5. 创建订单并等待部署

访问您的服务器

  • 在以下位置查找连接详情: 我的订单

  • Web 界面:使用 HTTP 端口的 URL

  • SSH: ssh -p <port> root@<proxy-address>

什么是 XTTS?

XTTS(由 Coqui 提供)提供:

  • 高质量文本转语音

  • 从 6 秒音频进行语音克隆

  • 支持 17 种语言

  • 情感控制

  • 流式支持

要求

模式
显存
推荐

推理

4GB

按小时费率

快速推理

6GB

RTX 3080

流式传输

4GB

按小时费率

快速部署

Docker 镜像:

端口:

命令:

访问您的服务

部署后,在以下位置查找您的 http_pub URL: 我的订单:

  1. 前往 我的订单 页面

  2. 单击您的订单

  3. 查找 http_pub URL(例如, abc123.clorecloud.net)

使用 https://YOUR_HTTP_PUB_URL 而不是 localhost 在下面的示例中。

安装

基本用法

简单 TTS

语音克隆

多种语言

支持的语言

代码
语言

en

英语

es

西班牙语

fr

法语

de

德语

it

意大利语

pt

葡萄牙语

pl

波兰语

tr

土耳其语

ru

俄语

nl

荷兰语

cs

捷克语

ar

阿拉伯语

zh-cn

中文

ja

日语

hu

匈牙利语

ko

韩语

hi

印地语

流式 TTS

Gradio 界面

API 服务器

"专业影棚柔光箱"

微调语音

为了更好的语音克隆:

音频预处理

background = Image.open("studio_bg.jpg")

模式
GPU
性能

标准

按小时费率

~0.5x 实时

标准

512x512

约 2 倍实时

流式传输

按小时费率

约 1 倍实时

流式传输

512x512

~3x 实时

质量提示

  • 使用 6-15 秒的干净参考音频

  • 避免参考音频中的背景噪音

  • 文本语言与参考保持一致

  • 使用多个参考样本以获得更好结果

# 使用固定种子以获得一致结果

语音质量差

  • 干净的参考音频

  • 更长的参考(10 秒以上)

  • 匹配说话风格

错误的语言发音

  • 确保正确的语言代码

  • 使用母语说话者参考

生成速度慢

  • 启用 GPU 推理

  • 使用流式模式

  • 减少每次调用的文本长度

下载所有所需的检查点

检查文件完整性

GPU
验证 CUDA 兼容性
费用估算
CLORE.AI 市场的典型费率(截至 2024 年):

按小时费率

~$0.03

~$0.70

~$0.12

速度

~$0.06

~$1.50

~$0.25

512x512

~$0.10

~$2.30

~$0.40

按日费率

~$0.17

~$4.00

~$0.70

4 小时会话

~$0.25

~$6.00

~$1.00

RTX 3060 CLORE.AI 市场arrow-up-right A100 40GB

A100 80GB

  • 使用 竞价 价格随提供商和需求而异。请查看

  • 以获取当前费率。 CLORE 节省费用:

  • 市场用于灵活工作负载(通常便宜 30-50%)

使用以下方式支付

最后更新于

这有帮助吗?