ACE-Step 音乐生成

使用 ACE-Step 生成带人声的完整歌曲——开源的 Suno 替代方案,低于 4GB VRAM 即可运行

ACE-Step 1.5 是大家期待已久的开源音乐生成突破。它可以生成 带人声和乐器的完整歌曲 从文本提示生成,与像 Suno 这样的商业服务媲美 —— 但可在你的 GPU 本地运行,并且有一个 MIT 许可证。杀手级功能?它只需要 少于 4GB 显存,使其成为史上最容易上手的 AI 音乐工具。在 RTX 4090 上可在 2–8 秒内生成完整曲目。

主要特性

  • 完整歌曲生成:一次通过生成人声 + 乐器 + 效果

  • < 4GB 显存:即使是最便宜的 GPU(RTX 3060,甚至 GTX 1060!)也能运行

  • 每轨 2–8 秒:在现代 GPU 上接近即时生成

  • MIT 许可证:可用于商业用途,无限制

  • 歌词支持:可撰写带有段落/副歌结构的自创歌词

  • 风格控制:流派标签、情绪、节奏、编制控制

  • ComfyUI 集成:基于节点的工作流,用于构建复杂的音乐管线

要求

组件
最低
推荐

GPU

任何拥有 4GB 显存的显卡均可

RTX 3060 或更好

显存

4GB

6GB+

内存

8GB

16GB

磁盘

10GB

15GB

Python

3.10+

3.11

推荐的 Clore.ai GPU:RTX 3060 6GB(约 $0.15–0.3/天)——是的,最便宜的 GPU 也能用!

速度参考

GPU
生成时间(30 秒曲目)

GTX 1060 6GB

~15–20 秒

RTX 3060 12GB

~6–10 秒

RTX 3080 10GB

~4–6 秒

RTX 4090 24GB

~2–3 秒

安装

独立模式

ComfyUI 集成

快速开始

安装

ACE-Step 是一个 Gradio 网页应用 — 不是 pip 包。请从 Git 安装:

启动 Web 界面

打开 http://localhost:7860 在你的浏览器中。界面包含:

  1. 提示字段 — 描述风格,例如:“欢快的电子流行,120 BPM”

  2. 歌词字段 — 用以下方式写段落: [Verse], [Chorus] 标签

  3. 时长滑块 — 15–120 秒

  4. 生成按钮 — 点击并等待 2–8 秒

带歌词生成(Web 界面)

在歌词字段中输入:

将提示设置为: 独立摇滚抒情曲,原声吉他,情感化,男声

CLI / 管道 使用

ComfyUI 集成(批处理工作流)

ComfyUI 节点允许你在可视化工作流中使用不同提示批量生成多条曲目。

风格标签

使用风格标签控制生成:

网页界面

该网页界面提供:

  • 带风格预设的文本提示输入

  • 带段落/副歌格式的歌词编辑器

  • 时长和质量滑块

  • 实时波形预览

  • 以 WAV 或 MP3 下载

Clore.ai 上的使用场景

模型变体
设置
成本

视频的背景音乐

RTX 3060,批量生成

~$0.15/天

歌曲原型 / 演示

RTX 3080,实时

~$0.3/天

音乐制作管线

RTX 4090 + ComfyUI

~$1/天

播客开场/结束音乐

任意 GPU,一次生成

~$0.15/天

给 Clore.ai 用户的提示

  • 可能的最低成本 AI 工作负载:以 RTX 3060 每天 $0.15 的成本,可以以几美分的代价生成数百首曲目

  • 通宵批处理:租用 GPU 8 小时($0.05–0.1),生成 500+ 首曲目

  • 用于管线的 ComfyUI:与图像生成串联以制作专辑封面工作流

  • 导出质量:先以最高质量生成,若需要可在 DAW 中后处理

  • 风格混合:在提示中结合流派:"带有黑胶滋滋声的 lo-fi 爵士嘻哈" 效果令人惊讶地好

# 使用固定种子以获得一致结果

问题
解决方案

未找到 CUDA

确保已安装带 CUDA 的 PyTorch: pip install torch --index-url https://download.pytorch.org/whl/cu121

模型下载缓慢

设置 HF_HUB_ENABLE_HF_TRANSFER=1 以便更快下载

音频听起来失真

尝试降低温度(0.7)或减少推理步数

4GB 显存出现内存不足

将时长减少到 15 秒;升级到 6GB 显存的 GPU

找不到 ComfyUI 节点

安装自定义节点后重启 ComfyUI

ACE-Step vs Suno vs AudioCraft

特性
ACE-Step 1.5
Suno v4
AudioCraft

完整歌曲

❌(仅限音乐)

人声

本地/自托管

❌(云端)

许可

MIT 协议

专有

MIT 协议

最小显存

4GB

不适用

16GB

速度(30 秒)

2–8 秒

~30 秒

~60 秒

成本

$0.15/天 GPU

$10/月 订阅

$0.3/天 GPU

延伸阅读

最后更新于

这有帮助吗?