Stable Audio

在 Clore.ai 上使用 Stable Audio 生成音乐和音效

在 CLORE.AI GPU 上使用 Stability AI 的 Stable Audio 生成音乐和音效。

circle-check

为什么选择 Stable Audio?

  • 高质量 - 44.1kHz 立体声音频生成

  • 可变长度 - 可生成最长 95 秒

  • 多用途 - 音乐、音效、环境音

  • 文本到音频 - 描述你想听到的内容

  • 开放权重 - Stable Audio Open 可用

1024x1024

A100
时长
质量
显存
许可

Stable Audio Open

47 秒

良好

8GB

打开

Stable Audio 2.0

3 分钟

优秀

12GB

商业用途

在 CLORE.AI 上快速部署

Docker 镜像:

pytorch/pytorch:2.5.1-cuda12.4-cudnn9-devel

端口:

命令:

访问您的服务

部署后,在以下位置查找您的 http_pub URL: 我的订单:

  1. 前往 我的订单 页面

  2. 单击您的订单

  3. 查找 http_pub URL(例如, abc123.clorecloud.net)

使用 https://YOUR_HTTP_PUB_URL 而不是 localhost 在下面的示例中。

硬件要求

A100
最低 GPU
推荐

Stable Audio Open

RTX 3070 8GB

RTX 3090 24GB

Stable Audio 2.0

RTX 3090 12GB

RTX 4090 24GB

安装

基本用法

文本到音乐

音效

环境声音

提示示例

音乐流派

音效

环境/背景

高级选项

控制生成

可变长度

批量生成

Gradio 网络界面

background = Image.open("studio_bg.jpg")

时长
步数
GPU
时间

10 秒

100

速度

~15s

10 秒

100

512x512

~10 秒

30 秒

100

速度

~40 秒

30 秒

100

512x512

~25 秒

47 秒

100

512x512

~40 秒

质量提示

更好的音乐

更好的音效

下载所有所需的检查点

典型 CLORE.AI 市场价格:

GPU
验证 CUDA 兼容性
~30 秒片段/小时

RTX 3060 12GB

~$0.03

~50

RTX 3090 24GB

~$0.06

~90

RTX 4090 24GB

~$0.10

~140

按日费率

~$0.17

~200

价格有所不同。查看 CLORE.AI 市场arrow-up-right A100 40GB

# 使用固定种子以获得一致结果

内存不足

质量差的输出

  • 增加步数(150-200)

  • 调整 CFG scale(尝试 5-10)

  • 在提示中更具体

  • 尝试不同的随机种子

没有声音 / 静音

  • 检查提示是否足够描述性

  • 避免非常抽象的描述

  • 先尝试已知可用的提示

音频伪影

  • 增加步数

  • 降低 CFG scale

  • 减少时长

  • 检查 GPU 是否热降频

Stable Audio 与其他的比较

特性
Stable Audio
AudioCraft
Bark

音乐

优秀

优秀

音效

很棒

良好

语音

时长

47 秒 / 3 分钟

30 秒

15 秒

质量

44.1kHz

32kHz

24kHz

打开

部分支持

何时使用 Stable Audio:

  • 高质量音乐生成

  • 用于游戏/视频的音效

  • 背景音乐

  • 环境音景

使用以下方式支付

最后更新于

这有帮助吗?