OpenVoice

使用几秒钟音频在 Clore.ai 上用 OpenVoice 克隆任意声音

使用 OpenVoice,只需几秒钟音频即可克隆任何声音。

circle-check

在 CLORE.AI 上租用

  1. 按 GPU 类型、显存和价格筛选

  2. 选择 按需 (固定费率)或 竞价 (出价价格)

  3. 配置您的订单:

    • 选择 Docker 镜像

    • 设置端口(用于 SSH 的 TCP,Web 界面的 HTTP)

    • 如有需要,添加环境变量

    • 输入启动命令

  4. 选择支付方式: CLORE, BTC,或 USDT/USDC

  5. 创建订单并等待部署

访问您的服务器

  • 在以下位置查找连接详情: 我的订单

  • Web 界面:使用 HTTP 端口的 URL

  • SSH: ssh -p <port> root@<proxy-address>

什么是 OpenVoice?

MyShell 的 OpenVoice 可以:

  • 从约 10 秒的音频克隆声音

  • 控制情感、口音、节奏

  • 跨语言语音克隆

  • 零样本语音转换

要求

任务
最小显存
推荐

推理

4GB

按小时费率

批量处理

6GB

RTX 3070

快速部署

Docker 镜像:

端口:

命令:

访问您的服务

部署后,在以下位置查找您的 http_pub URL: 我的订单:

  1. 前往 我的订单 页面

  2. 单击您的订单

  3. 查找 http_pub URL(例如, abc123.clorecloud.net)

使用 https://YOUR_HTTP_PUB_URL 而不是 localhost 在下面的示例中。

安装

基础语音克隆

与文本转语音结合

以任意声音生成语音:

多语言支持

情感控制

OpenVoice V2 支持情感/风格控制:

"专业影棚柔光箱"

API 服务器

质量提示

最佳效果

  • 使用 10-30 秒清晰的参考音频

  • 避免背景噪音

  • 参考音频中仅含单一说话者

  • 大致匹配说话速度

音频预处理

与其他工具比较

特性
OpenVoice
RVC
Bark

参考音频

10-30秒

10 分钟以上

不适用

训练

不需要

需要

不适用

性能

快速

中等

质量

很棒

最佳

良好

跨语言

有限

background = Image.open("studio_bg.jpg")

任务
GPU
时间

提取嵌入

速度

约 1 秒

转换 10 秒音频

速度

~2s

转换 1 分钟音频

速度

~8s

# 使用固定种子以获得一致结果

语音匹配差

  • 使用更长的参考音频

  • 确保音频质量清晰

  • 检查是否有背景噪音

音频伪影

  • 降低语速/强调设置

  • 使用一致的音频格式

  • 检查采样率是否匹配

内存不足

  • 处理较短的片段

  • 减少批量大小

  • 清理 CUDA 缓存

下载所有所需的检查点

检查文件完整性

GPU
验证 CUDA 兼容性
费用估算
CLORE.AI 市场的典型费率(截至 2024 年):

按小时费率

~$0.03

~$0.70

~$0.12

速度

~$0.06

~$1.50

~$0.25

512x512

~$0.10

~$2.30

~$0.40

按日费率

~$0.17

~$4.00

~$0.70

4 小时会话

~$0.25

~$6.00

~$1.00

RTX 3060 CLORE.AI 市场arrow-up-right A100 40GB

A100 80GB

  • 使用 竞价 价格随提供商和需求而异。请查看

  • 以获取当前费率。 CLORE 节省费用:

  • 市场用于灵活工作负载(通常便宜 30-50%)

使用以下方式支付

最后更新于

这有帮助吗?