# ACE-Step 音乐生成

ACE-Step 1.5 是大家期待已久的开源音乐生成突破。它可以生成 **带人声和乐器的完整歌曲** 从文本提示生成，与像 Suno 这样的商业服务媲美 —— 但可在你的 GPU 本地运行，并且有一个 **MIT 许可证**。杀手级功能？它只需要 **少于 4GB 显存**，使其成为史上最容易上手的 AI 音乐工具。在 RTX 4090 上可在 2–8 秒内生成完整曲目。

## 主要特性

* **完整歌曲生成**：一次通过生成人声 + 乐器 + 效果
* **< 4GB 显存**：即使是最便宜的 GPU（RTX 3060，甚至 GTX 1060！）也能运行
* **每轨 2–8 秒**：在现代 GPU 上接近即时生成
* **MIT 许可证**：可用于商业用途，无限制
* **歌词支持**：可撰写带有段落/副歌结构的自创歌词
* **风格控制**：流派标签、情绪、节奏、编制控制
* **ComfyUI 集成**：基于节点的工作流，用于构建复杂的音乐管线

## 要求

| 组件     | 最低               | 推荐           |
| ------ | ---------------- | ------------ |
| GPU    | 任何拥有 4GB 显存的显卡均可 | RTX 3060 或更好 |
| 显存     | 4GB              | 6GB+         |
| 内存     | 8GB              | 16GB         |
| 磁盘     | 10GB             | 15GB         |
| Python | 3.10+            | 3.11         |

**推荐的 Clore.ai GPU**：RTX 3060 6GB（约 $0.15–0.3/天）——是的，最便宜的 GPU 也能用！

### 速度参考

| GPU           | 生成时间（30 秒曲目） |
| ------------- | ------------ |
| GTX 1060 6GB  | \~15–20 秒    |
| RTX 3060 12GB | \~6–10 秒     |
| RTX 3080 10GB | \~4–6 秒      |
| RTX 4090 24GB | \~2–3 秒      |

## 安装

### 独立模式

```bash
git clone https://github.com/ace-step/ACE-Step.git
cd ACE-Step
pip install -e .

# 或通过 pip（如果可用）
pip install ace-step
```

### ComfyUI 集成

```bash
demo.launch(server_name="0.0.0.0", server_port=7860)
git clone https://github.com/ace-step/ComfyUI-ACE-Step
pip install -r ComfyUI-ACE-Step/requirements.txt
# 重启 ComfyUI — ACE-Step 节点将出现
```

## 快速开始

### 安装

ACE-Step 是一个 Gradio 网页应用 — 不是 pip 包。请从 Git 安装：

```bash
# 克隆并设置
git clone https://github.com/ACE-Step/ACE-Step-1.5.git
cd ACE-Step-1.5

# 选项 A：uv（推荐）
pip install uv
uv sync

# 选项 B：pip
pip install -r requirements.txt
```

### 启动 Web 界面

```bash
# 启动 Gradio 界面
python app.py --port 7860 --share

# 对于低显存 (< 6GB)：
python app.py --port 7860 --half
```

打开 `http://localhost:7860` 在你的浏览器中。界面包含：

1. **提示字段** — 描述风格，例如：“欢快的电子流行，120 BPM”
2. **歌词字段** — 用以下方式写段落： `[Verse]`, `[Chorus]` 标签
3. **时长滑块** — 15–120 秒
4. **生成按钮** — 点击并等待 2–8 秒

### 带歌词生成（Web 界面）

在歌词字段中输入：

```
[Verse 1]
我在深夜租用 GPU
服务器低鸣，屏幕明亮
训练模型，追逐梦想
没有什么是表面看起来的样子

[Chorus]
我们今天正在构建新的东西
未来只在一个提示之外
每一个标记，每一行句子
代码和音乐交织在一起
```

将提示设置为： `独立摇滚抒情曲，原声吉他，情感化，男声`

### CLI / 管道 使用

```bash
# 使用管道脚本从命令行生成
cd ACE-Step-1.5
python acestep/acestep_v15_pipeline.py \
  --prompt "lo-fi hip hop, chill, rainy day, piano, soft drums" \
  --lyrics "" \
  --duration 30 \
  --output output.wav
```

### ComfyUI 集成（批处理工作流）

```bash
# 安装用于批量生成的 ComfyUI 节点
demo.launch(server_name="0.0.0.0", server_port=7860)
git clone https://github.com/ACE-Step/ComfyUI-ACE-Step
pip install -r ComfyUI-ACE-Step/requirements.txt
# 重启 ComfyUI — 在节点菜单中会出现 ACE-Step 节点
```

ComfyUI 节点允许你在可视化工作流中使用不同提示批量生成多条曲目。

### 风格标签

使用风格标签控制生成：

```python
# 流派标签
"流行", "摇滚", "电子", "嘻哈", "爵士", "古典", "金属",
"lo-fi", "合成波", "氛围", "民谣", "节奏蓝调", "乡村"

# 情绪标签
"快乐", "伤感", "充满活力", "放松", "黑暗", "史诗感", "浪漫"

# 乐器标签
"钢琴", "吉他", "鼓", "贝斯", "合成器", "弦乐", "小提琴"

# 人声标签
"男声", "女声", "合唱", "无人声", "哼唱"

# 技术标签
"120 BPM", "小调", "大调", "4/4 拍"
```

## 网页界面

```bash
cd ACE-Step
python app.py --port 7860
# 打开 http://localhost:7860
```

该网页界面提供：

* 带风格预设的文本提示输入
* 带段落/副歌格式的歌词编辑器
* 时长和质量滑块
* 实时波形预览
* 以 WAV 或 MP3 下载

## Clore.ai 上的使用场景

| 模型变体      | 设置                 | 成本        |
| --------- | ------------------ | --------- |
| 视频的背景音乐   | RTX 3060，批量生成      | \~$0.15/天 |
| 歌曲原型 / 演示 | RTX 3080，实时        | \~$0.3/天  |
| 音乐制作管线    | RTX 4090 + ComfyUI | \~$1/天    |
| 播客开场/结束音乐 | 任意 GPU，一次生成        | \~$0.15/天 |

## 给 Clore.ai 用户的提示

* **可能的最低成本 AI 工作负载**：以 RTX 3060 每天 $0.15 的成本，可以以几美分的代价生成数百首曲目
* **通宵批处理**：租用 GPU 8 小时（$0.05–0.1），生成 500+ 首曲目
* **用于管线的 ComfyUI**：与图像生成串联以制作专辑封面工作流
* **导出质量**：先以最高质量生成，若需要可在 DAW 中后处理
* **风格混合**：在提示中结合流派："带有黑胶滋滋声的 lo-fi 爵士嘻哈" 效果令人惊讶地好

## # 使用固定种子以获得一致结果

| 问题             | 解决方案                                                                                          |
| -------------- | --------------------------------------------------------------------------------------------- |
| 未找到 CUDA       | 确保已安装带 CUDA 的 PyTorch： `pip install torch --index-url https://download.pytorch.org/whl/cu121` |
| 模型下载缓慢         | 设置 `HF_HUB_ENABLE_HF_TRANSFER=1` 以便更快下载                                                       |
| 音频听起来失真        | 尝试降低温度（0.7）或减少推理步数                                                                            |
| 4GB 显存出现内存不足   | 将时长减少到 15 秒；升级到 6GB 显存的 GPU                                                                   |
| 找不到 ComfyUI 节点 | 安装自定义节点后重启 ComfyUI                                                                            |

## ACE-Step vs Suno vs AudioCraft

| 特性       | ACE-Step 1.5 | Suno v4  | AudioCraft |
| -------- | ------------ | -------- | ---------- |
| 完整歌曲     | ✅            | ✅        | ❌（仅限音乐）    |
| 人声       | ✅            | ✅        | ❌          |
| 本地/自托管   | ✅            | ❌（云端）    | ✅          |
| 许可       | MIT 协议       | 专有       | MIT 协议     |
| 最小显存     | 4GB          | 不适用      | 16GB       |
| 速度（30 秒） | 2–8 秒        | \~30 秒   | \~60 秒     |
| 成本       | $0.15/天 GPU  | $10/月 订阅 | $0.3/天 GPU |

## 延伸阅读

* [GitHub 仓库](https://github.com/ace-step/ACE-Step)
* [ComfyUI 节点](https://github.com/ace-step/ComfyUI-ACE-Step)
* [AudioCraft 指南](https://docs.clore.ai/guides/guides_v2-zh/yin-pin-yu-yu-yin/audiocraft-music) — 仅用于纯器乐音乐
