# Generación musical ACE-Step

ACE-Step 1.5 es el avance de generación de música de código abierto que todos esperaban. Genera **canciones completas con voces e instrumentos** a partir de indicaciones de texto, rivalizando con servicios comerciales como Suno — pero funciona localmente en tu GPU con un **Licencia MIT**. ¿La característica clave? Necesita **menos de 4GB de VRAM**, lo que la convierte en la herramienta de IA musical más accesible de la historia. Genera una pista completa en 2–8 segundos en una RTX 4090.

## Características clave

* **Generación de canción completa**: Voces + instrumentos + efectos en una sola pasada
* **< 4GB VRAM**: Funciona incluso en las GPUs más baratas (RTX 3060, ¡incluso GTX 1060!)
* **2–8 segundos por pista**: Generación casi instantánea en GPUs modernas
* **Licencia MIT**: Uso comercial completo, sin restricciones
* **Soporte de letras**: Escribe tus propias letras con estructura de verso/estribillo
* **Control de estilo**: Etiquetas de género, estado de ánimo, tempo, instrumentación
* **Integración con ComfyUI**: Flujo de trabajo basado en nodos para pipelines musicales complejos

## Requisitos

| Componente | Mínimo                     | Recomendado      |
| ---------- | -------------------------- | ---------------- |
| GPU        | Cualquiera con 4GB de VRAM | RTX 3060 o mejor |
| VRAM       | 4GB                        | 6GB+             |
| RAM        | 8GB                        | 16GB             |
| Disco      | 10GB                       | 15GB             |
| Python     | 3.10+                      | 3.11             |

**GPU recomendada de Clore.ai**: RTX 3060 6GB (\~$0.15–0.3/día) — sí, ¡la GPU más barata funciona!

### Referencia de velocidad

| GPU           | Tiempo de generación (pista de 30s) |
| ------------- | ----------------------------------- |
| GTX 1060 6GB  | \~15–20 seg                         |
| RTX 3060 12GB | \~6–10 seg                          |
| RTX 3080 10GB | \~4–6 seg                           |
| RTX 4090 24GB | \~2–3 seg                           |

## Instalación

### Independiente

```bash
git clone https://github.com/ace-step/ACE-Step.git
cd ACE-Step
pip install -e .

# O vía pip (si está disponible)
pip install ace-step
```

### Integración con ComfyUI

```bash
cd ComfyUI/custom_nodes
git clone https://github.com/ace-step/ComfyUI-ACE-Step
pip install -r ComfyUI-ACE-Step/requirements.txt
# Reinicia ComfyUI — aparecerán los nodos de ACE-Step
```

## Inicio rápido

### Instalación

ACE-Step es una aplicación web Gradio — no un paquete pip. Instala desde Git:

```bash
# Clona y configura
git clone https://github.com/ACE-Step/ACE-Step-1.5.git
cd ACE-Step-1.5

# Opción A: uv (recomendado)
pip install uv
uv sync

# Opción B: pip
pip install -r requirements.txt
```

### Iniciar interfaz web

```bash
# Inicia la interfaz de Gradio
python app.py --port 7860 --share

# Para poca VRAM (< 6GB):
python app.py --port 7860 --half
```

Abrir `http://localhost:7860` en tu navegador. La interfaz tiene:

1. **Campo de indicación** — describe el estilo: "pop electrónico animado, 120 BPM"
2. **Campo de letras** — escribe versos con `[Verso]`, `[Coro]` etiquetas
3. **Deslizador de duración** — 15–120 segundos
4. **Botón Generar** — haz clic y espera 2–8 segundos

### Generar con letras (Web UI)

Introduce en el campo de letras:

```
[Verso 1]
Alquilo las GPUs hasta tarde en la noche
Los servidores zumbando, pantallas tan brillantes
Entrenando modelos, persiguiendo sueños
Nada es nunca lo que parece

[Coro]
Hoy estamos construyendo algo nuevo
El futuro está a solo una indicación de distancia
Con cada token, cada línea
El código y la música se entrelazan
```

Configura la indicación a: `balada indie rock, guitarra acústica, emotiva, voz masculina`

### Uso por CLI / Pipeline

```bash
# Genera desde la línea de comandos usando el script del pipeline directamente
cd ACE-Step-1.5
python acestep/acestep_v15_pipeline.py \
  --prompt "lo-fi hip hop, chill, rainy day, piano, soft drums" \
  --lyrics "" \
  --duration 30 \
  --output output.wav
```

### Integración con ComfyUI (flujo por lotes)

```bash
# Instala nodos de ComfyUI para generación por lotes
cd ComfyUI/custom_nodes
git clone https://github.com/ACE-Step/ComfyUI-ACE-Step
pip install -r ComfyUI-ACE-Step/requirements.txt
# Reinicia ComfyUI — los nodos de ACE-Step aparecerán en el menú de nodos
```

Los nodos de ComfyUI te permiten generar por lotes múltiples pistas con diferentes indicaciones en un flujo de trabajo visual.

### Etiquetas de estilo

Controla la generación con etiquetas de estilo:

```python
# Etiquetas de género
"pop", "rock", "electrónica", "hip-hop", "jazz", "clásica", "metal",
"lo-fi", "synthwave", "ambiental", "folk", "R&B", "country"

# Etiquetas de estado de ánimo
"feliz", "triste", "enérgico", "relajado", "oscuro", "épico", "romántico"

# Etiquetas de instrumento
"piano", "guitarra", "batería", "bajo", "sintetizador", "cuerdas", "violín"

# Etiquetas vocales
"voz masculina", "voz femenina", "coro", "sin voces", "tarareo"

# Etiquetas técnicas
"120 BPM", "tono menor", "tono mayor", "compás 4/4"
```

## Interfaz web

```bash
cd ACE-Step
python app.py --port 7860
# Abre http://localhost:7860
```

La interfaz web ofrece:

* Entrada de indicación de texto con preajustes de estilo
* Editor de letras con formato de verso/estribillo
* Deslizadores de duración y calidad
* Vista previa de forma de onda en tiempo real
* Descargar como WAV o MP3

## Casos de uso en Clore.ai

| Caso de uso                      | Configuración                     | Costo       |
| -------------------------------- | --------------------------------- | ----------- |
| Música de fondo para videos      | RTX 3060, generar por lotes       | \~$0.15/día |
| Prototipado de canciones / demos | RTX 3080, en tiempo real          | \~$0.3/día  |
| Pipeline de producción musical   | RTX 4090 + ComfyUI                | \~$1/día    |
| Intro/outro de podcast           | Cualquier GPU, en un solo intento | \~$0.15/día |

## Consejos para usuarios de Clore.ai

* **La carga de trabajo de IA más barata posible**: A $0.15/día por RTX 3060, genera cientos de pistas por centavos
* **Procesamiento por lotes durante la noche**: Alquila una GPU por 8 horas ($0.05–0.1), genera 500+ pistas
* **ComfyUI para pipelines**: Encadenar con generación de imágenes para flujos de trabajo de arte de álbum
* **Calidad de exportación**: Genera en la máxima calidad y luego procesa en un DAW si es necesario
* **Mezcla de estilos**: Combina géneros en las indicaciones: "lo-fi jazz hip hop con crujido de vinilo" funciona sorprendentemente bien

## Solución de problemas

| Problema                     | Solución                                                                                                                 |
| ---------------------------- | ------------------------------------------------------------------------------------------------------------------------ |
| CUDA no encontrada           | Asegúrate de que PyTorch esté instalado con CUDA: `pip install torch --index-url https://download.pytorch.org/whl/cu121` |
| Descarga de modelos lenta    | Establecer `HF_HUB_ENABLE_HF_TRANSFER=1` para descargas más rápidas                                                      |
| El audio suena distorsionado | Prueba una temperatura más baja (0.7) o menos pasos de inferencia                                                        |
| Memoria insuficiente en 4GB  | Reduce la duración a 15 segundos; actualiza a una GPU de 6GB                                                             |
| Faltan nodos de ComfyUI      | Reinicia ComfyUI después de instalar los nodos personalizados                                                            |

## ACE-Step vs Suno vs AudioCraft

| Función             | ACE-Step 1.5  | Suno v4             | AudioCraft      |
| ------------------- | ------------- | ------------------- | --------------- |
| Canciones completas | ✅             | ✅                   | ❌ (solo música) |
| Voces               | ✅             | ✅                   | ❌               |
| Local/autoalojado   | ✅             | ❌ (nube)            | ✅               |
| Licencia            | MIT           | Proprietario        | MIT             |
| VRAM mínima         | 4GB           | N/A                 | 16GB            |
| Velocidad (30s)     | 2–8 seg       | \~30 seg            | \~60 seg        |
| Costo               | $0.15/día GPU | $10/mes suscripción | $0.3/día GPU    |

## Lecturas adicionales

* [Repositorio de GitHub](https://github.com/ace-step/ACE-Step)
* [Nodos ComfyUI](https://github.com/ace-step/ComfyUI-ACE-Step)
* [Guía de AudioCraft](/guides/guides_v2-es/audio-y-voz/audiocraft-music.md) — para música solo instrumental


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-es/generacion-musical/ace-step.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
