# ACE-Step 音乐生成

ACE-Step 1.5 是大家期待已久的开源音乐生成突破。它可以生成 **带人声和乐器的完整歌曲** 从文本提示生成，与像 Suno 这样的商业服务媲美 —— 但可在你的 GPU 本地运行，并且有一个 **MIT 许可证**。杀手级功能？它只需要 **少于 4GB 显存**，使其成为史上最容易上手的 AI 音乐工具。在 RTX 4090 上可在 2–8 秒内生成完整曲目。

## 主要特性

* **完整歌曲生成**：一次通过生成人声 + 乐器 + 效果
* **< 4GB 显存**：即使是最便宜的 GPU（RTX 3060，甚至 GTX 1060！）也能运行
* **每轨 2–8 秒**：在现代 GPU 上接近即时生成
* **MIT 许可证**：可用于商业用途，无限制
* **歌词支持**：可撰写带有段落/副歌结构的自创歌词
* **风格控制**：流派标签、情绪、节奏、编制控制
* **ComfyUI 集成**：基于节点的工作流，用于构建复杂的音乐管线

## 要求

| 组件     | 最低               | 推荐           |
| ------ | ---------------- | ------------ |
| GPU    | 任何拥有 4GB 显存的显卡均可 | RTX 3060 或更好 |
| 显存     | 4GB              | 6GB+         |
| 内存     | 8GB              | 16GB         |
| 磁盘     | 10GB             | 15GB         |
| Python | 3.10+            | 3.11         |

**推荐的 Clore.ai GPU**：RTX 3060 6GB（约 $0.15–0.3/天）——是的，最便宜的 GPU 也能用！

### 速度参考

| GPU           | 生成时间（30 秒曲目） |
| ------------- | ------------ |
| GTX 1060 6GB  | \~15–20 秒    |
| RTX 3060 12GB | \~6–10 秒     |
| RTX 3080 10GB | \~4–6 秒      |
| RTX 4090 24GB | \~2–3 秒      |

## 安装

### 独立模式

```bash
git clone https://github.com/ace-step/ACE-Step.git
cd ACE-Step
pip install -e .

# 或通过 pip（如果可用）
pip install ace-step
```

### ComfyUI 集成

```bash
demo.launch(server_name="0.0.0.0", server_port=7860)
git clone https://github.com/ace-step/ComfyUI-ACE-Step
pip install -r ComfyUI-ACE-Step/requirements.txt
# 重启 ComfyUI — ACE-Step 节点将出现
```

## 快速开始

### 安装

ACE-Step 是一个 Gradio 网页应用 — 不是 pip 包。请从 Git 安装：

```bash
# 克隆并设置
git clone https://github.com/ACE-Step/ACE-Step-1.5.git
cd ACE-Step-1.5

# 选项 A：uv（推荐）
pip install uv
uv sync

# 选项 B：pip
pip install -r requirements.txt
```

### 启动 Web 界面

```bash
# 启动 Gradio 界面
python app.py --port 7860 --share

# 对于低显存 (< 6GB)：
python app.py --port 7860 --half
```

打开 `http://localhost:7860` 在你的浏览器中。界面包含：

1. **提示字段** — 描述风格，例如：“欢快的电子流行，120 BPM”
2. **歌词字段** — 用以下方式写段落： `[Verse]`, `[Chorus]` 标签
3. **时长滑块** — 15–120 秒
4. **生成按钮** — 点击并等待 2–8 秒

### 带歌词生成（Web 界面）

在歌词字段中输入：

```
[Verse 1]
我在深夜租用 GPU
服务器低鸣，屏幕明亮
训练模型，追逐梦想
没有什么是表面看起来的样子

[Chorus]
我们今天正在构建新的东西
未来只在一个提示之外
每一个标记，每一行句子
代码和音乐交织在一起
```

将提示设置为： `独立摇滚抒情曲，原声吉他，情感化，男声`

### CLI / 管道 使用

```bash
# 使用管道脚本从命令行生成
cd ACE-Step-1.5
python acestep/acestep_v15_pipeline.py \
  --prompt "lo-fi hip hop, chill, rainy day, piano, soft drums" \
  --lyrics "" \
  --duration 30 \
  --output output.wav
```

### ComfyUI 集成（批处理工作流）

```bash
# 安装用于批量生成的 ComfyUI 节点
demo.launch(server_name="0.0.0.0", server_port=7860)
git clone https://github.com/ACE-Step/ComfyUI-ACE-Step
pip install -r ComfyUI-ACE-Step/requirements.txt
# 重启 ComfyUI — 在节点菜单中会出现 ACE-Step 节点
```

ComfyUI 节点允许你在可视化工作流中使用不同提示批量生成多条曲目。

### 风格标签

使用风格标签控制生成：

```python
# 流派标签
"流行", "摇滚", "电子", "嘻哈", "爵士", "古典", "金属",
"lo-fi", "合成波", "氛围", "民谣", "节奏蓝调", "乡村"

# 情绪标签
"快乐", "伤感", "充满活力", "放松", "黑暗", "史诗感", "浪漫"

# 乐器标签
"钢琴", "吉他", "鼓", "贝斯", "合成器", "弦乐", "小提琴"

# 人声标签
"男声", "女声", "合唱", "无人声", "哼唱"

# 技术标签
"120 BPM", "小调", "大调", "4/4 拍"
```

## 网页界面

```bash
cd ACE-Step
python app.py --port 7860
# 打开 http://localhost:7860
```

该网页界面提供：

* 带风格预设的文本提示输入
* 带段落/副歌格式的歌词编辑器
* 时长和质量滑块
* 实时波形预览
* 以 WAV 或 MP3 下载

## Clore.ai 上的使用场景

| 模型变体      | 设置                 | 成本        |
| --------- | ------------------ | --------- |
| 视频的背景音乐   | RTX 3060，批量生成      | \~$0.15/天 |
| 歌曲原型 / 演示 | RTX 3080，实时        | \~$0.3/天  |
| 音乐制作管线    | RTX 4090 + ComfyUI | \~$1/天    |
| 播客开场/结束音乐 | 任意 GPU，一次生成        | \~$0.15/天 |

## 给 Clore.ai 用户的提示

* **可能的最低成本 AI 工作负载**：以 RTX 3060 每天 $0.15 的成本，可以以几美分的代价生成数百首曲目
* **通宵批处理**：租用 GPU 8 小时（$0.05–0.1），生成 500+ 首曲目
* **用于管线的 ComfyUI**：与图像生成串联以制作专辑封面工作流
* **导出质量**：先以最高质量生成，若需要可在 DAW 中后处理
* **风格混合**：在提示中结合流派："带有黑胶滋滋声的 lo-fi 爵士嘻哈" 效果令人惊讶地好

## # 使用固定种子以获得一致结果

| 问题             | 解决方案                                                                                          |
| -------------- | --------------------------------------------------------------------------------------------- |
| 未找到 CUDA       | 确保已安装带 CUDA 的 PyTorch： `pip install torch --index-url https://download.pytorch.org/whl/cu121` |
| 模型下载缓慢         | 设置 `HF_HUB_ENABLE_HF_TRANSFER=1` 以便更快下载                                                       |
| 音频听起来失真        | 尝试降低温度（0.7）或减少推理步数                                                                            |
| 4GB 显存出现内存不足   | 将时长减少到 15 秒；升级到 6GB 显存的 GPU                                                                   |
| 找不到 ComfyUI 节点 | 安装自定义节点后重启 ComfyUI                                                                            |

## ACE-Step vs Suno vs AudioCraft

| 特性       | ACE-Step 1.5 | Suno v4  | AudioCraft |
| -------- | ------------ | -------- | ---------- |
| 完整歌曲     | ✅            | ✅        | ❌（仅限音乐）    |
| 人声       | ✅            | ✅        | ❌          |
| 本地/自托管   | ✅            | ❌（云端）    | ✅          |
| 许可       | MIT 协议       | 专有       | MIT 协议     |
| 最小显存     | 4GB          | 不适用      | 16GB       |
| 速度（30 秒） | 2–8 秒        | \~30 秒   | \~60 秒     |
| 成本       | $0.15/天 GPU  | $10/月 订阅 | $0.3/天 GPU |

## 延伸阅读

* [GitHub 仓库](https://github.com/ace-step/ACE-Step)
* [ComfyUI 节点](https://github.com/ace-step/ComfyUI-ACE-Step)
* [AudioCraft 指南](/guides/guides_v2-zh/yin-pin-yu-yu-yin/audiocraft-music.md) — 仅用于纯器乐音乐


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-zh/yin-yue-sheng-cheng/ace-step.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
