# Generación musical ACE-Step

ACE-Step 1.5 es el avance de generación de música de código abierto que todos esperaban. Genera **canciones completas con voces e instrumentos** a partir de indicaciones de texto, rivalizando con servicios comerciales como Suno — pero funciona localmente en tu GPU con un **Licencia MIT**. ¿La característica clave? Necesita **menos de 4GB de VRAM**, lo que la convierte en la herramienta de IA musical más accesible de la historia. Genera una pista completa en 2–8 segundos en una RTX 4090.

## Características clave

* **Generación de canción completa**: Voces + instrumentos + efectos en una sola pasada
* **< 4GB VRAM**: Funciona incluso en las GPUs más baratas (RTX 3060, ¡incluso GTX 1060!)
* **2–8 segundos por pista**: Generación casi instantánea en GPUs modernas
* **Licencia MIT**: Uso comercial completo, sin restricciones
* **Soporte de letras**: Escribe tus propias letras con estructura de verso/estribillo
* **Control de estilo**: Etiquetas de género, estado de ánimo, tempo, instrumentación
* **Integración con ComfyUI**: Flujo de trabajo basado en nodos para pipelines musicales complejos

## Requisitos

| Componente | Mínimo                     | Recomendado      |
| ---------- | -------------------------- | ---------------- |
| GPU        | Cualquiera con 4GB de VRAM | RTX 3060 o mejor |
| VRAM       | 4GB                        | 6GB+             |
| RAM        | 8GB                        | 16GB             |
| Disco      | 10GB                       | 15GB             |
| Python     | 3.10+                      | 3.11             |

**GPU recomendada de Clore.ai**: RTX 3060 6GB (\~$0.15–0.3/día) — sí, ¡la GPU más barata funciona!

### Referencia de velocidad

| GPU           | Tiempo de generación (pista de 30s) |
| ------------- | ----------------------------------- |
| GTX 1060 6GB  | \~15–20 seg                         |
| RTX 3060 12GB | \~6–10 seg                          |
| RTX 3080 10GB | \~4–6 seg                           |
| RTX 4090 24GB | \~2–3 seg                           |

## Instalación

### Independiente

```bash
git clone https://github.com/ace-step/ACE-Step.git
cd ACE-Step
pip install -e .

# O vía pip (si está disponible)
pip install ace-step
```

### Integración con ComfyUI

```bash
cd ComfyUI/custom_nodes
git clone https://github.com/ace-step/ComfyUI-ACE-Step
pip install -r ComfyUI-ACE-Step/requirements.txt
# Reinicia ComfyUI — aparecerán los nodos de ACE-Step
```

## Inicio rápido

### Instalación

ACE-Step es una aplicación web Gradio — no un paquete pip. Instala desde Git:

```bash
# Clona y configura
git clone https://github.com/ACE-Step/ACE-Step-1.5.git
cd ACE-Step-1.5

# Opción A: uv (recomendado)
pip install uv
uv sync

# Opción B: pip
pip install -r requirements.txt
```

### Iniciar interfaz web

```bash
# Inicia la interfaz de Gradio
python app.py --port 7860 --share

# Para poca VRAM (< 6GB):
python app.py --port 7860 --half
```

Abrir `http://localhost:7860` en tu navegador. La interfaz tiene:

1. **Campo de indicación** — describe el estilo: "pop electrónico animado, 120 BPM"
2. **Campo de letras** — escribe versos con `[Verso]`, `[Coro]` etiquetas
3. **Deslizador de duración** — 15–120 segundos
4. **Botón Generar** — haz clic y espera 2–8 segundos

### Generar con letras (Web UI)

Introduce en el campo de letras:

```
[Verso 1]
Alquilo las GPUs hasta tarde en la noche
Los servidores zumbando, pantallas tan brillantes
Entrenando modelos, persiguiendo sueños
Nada es nunca lo que parece

[Coro]
Hoy estamos construyendo algo nuevo
El futuro está a solo una indicación de distancia
Con cada token, cada línea
El código y la música se entrelazan
```

Configura la indicación a: `balada indie rock, guitarra acústica, emotiva, voz masculina`

### Uso por CLI / Pipeline

```bash
# Genera desde la línea de comandos usando el script del pipeline directamente
cd ACE-Step-1.5
python acestep/acestep_v15_pipeline.py \
  --prompt "lo-fi hip hop, chill, rainy day, piano, soft drums" \
  --lyrics "" \
  --duration 30 \
  --output output.wav
```

### Integración con ComfyUI (flujo por lotes)

```bash
# Instala nodos de ComfyUI para generación por lotes
cd ComfyUI/custom_nodes
git clone https://github.com/ACE-Step/ComfyUI-ACE-Step
pip install -r ComfyUI-ACE-Step/requirements.txt
# Reinicia ComfyUI — los nodos de ACE-Step aparecerán en el menú de nodos
```

Los nodos de ComfyUI te permiten generar por lotes múltiples pistas con diferentes indicaciones en un flujo de trabajo visual.

### Etiquetas de estilo

Controla la generación con etiquetas de estilo:

```python
# Etiquetas de género
"pop", "rock", "electrónica", "hip-hop", "jazz", "clásica", "metal",
"lo-fi", "synthwave", "ambiental", "folk", "R&B", "country"

# Etiquetas de estado de ánimo
"feliz", "triste", "enérgico", "relajado", "oscuro", "épico", "romántico"

# Etiquetas de instrumento
"piano", "guitarra", "batería", "bajo", "sintetizador", "cuerdas", "violín"

# Etiquetas vocales
"voz masculina", "voz femenina", "coro", "sin voces", "tarareo"

# Etiquetas técnicas
"120 BPM", "tono menor", "tono mayor", "compás 4/4"
```

## Interfaz web

```bash
cd ACE-Step
python app.py --port 7860
# Abre http://localhost:7860
```

La interfaz web ofrece:

* Entrada de indicación de texto con preajustes de estilo
* Editor de letras con formato de verso/estribillo
* Deslizadores de duración y calidad
* Vista previa de forma de onda en tiempo real
* Descargar como WAV o MP3

## Casos de uso en Clore.ai

| Caso de uso                      | Configuración                     | Costo       |
| -------------------------------- | --------------------------------- | ----------- |
| Música de fondo para videos      | RTX 3060, generar por lotes       | \~$0.15/día |
| Prototipado de canciones / demos | RTX 3080, en tiempo real          | \~$0.3/día  |
| Pipeline de producción musical   | RTX 4090 + ComfyUI                | \~$1/día    |
| Intro/outro de podcast           | Cualquier GPU, en un solo intento | \~$0.15/día |

## Consejos para usuarios de Clore.ai

* **La carga de trabajo de IA más barata posible**: A $0.15/día por RTX 3060, genera cientos de pistas por centavos
* **Procesamiento por lotes durante la noche**: Alquila una GPU por 8 horas ($0.05–0.1), genera 500+ pistas
* **ComfyUI para pipelines**: Encadenar con generación de imágenes para flujos de trabajo de arte de álbum
* **Calidad de exportación**: Genera en la máxima calidad y luego procesa en un DAW si es necesario
* **Mezcla de estilos**: Combina géneros en las indicaciones: "lo-fi jazz hip hop con crujido de vinilo" funciona sorprendentemente bien

## Solución de problemas

| Problema                     | Solución                                                                                                                 |
| ---------------------------- | ------------------------------------------------------------------------------------------------------------------------ |
| CUDA no encontrada           | Asegúrate de que PyTorch esté instalado con CUDA: `pip install torch --index-url https://download.pytorch.org/whl/cu121` |
| Descarga de modelos lenta    | Establecer `HF_HUB_ENABLE_HF_TRANSFER=1` para descargas más rápidas                                                      |
| El audio suena distorsionado | Prueba una temperatura más baja (0.7) o menos pasos de inferencia                                                        |
| Memoria insuficiente en 4GB  | Reduce la duración a 15 segundos; actualiza a una GPU de 6GB                                                             |
| Faltan nodos de ComfyUI      | Reinicia ComfyUI después de instalar los nodos personalizados                                                            |

## ACE-Step vs Suno vs AudioCraft

| Función             | ACE-Step 1.5  | Suno v4             | AudioCraft      |
| ------------------- | ------------- | ------------------- | --------------- |
| Canciones completas | ✅             | ✅                   | ❌ (solo música) |
| Voces               | ✅             | ✅                   | ❌               |
| Local/autoalojado   | ✅             | ❌ (nube)            | ✅               |
| Licencia            | MIT           | Proprietario        | MIT             |
| VRAM mínima         | 4GB           | N/A                 | 16GB            |
| Velocidad (30s)     | 2–8 seg       | \~30 seg            | \~60 seg        |
| Costo               | $0.15/día GPU | $10/mes suscripción | $0.3/día GPU    |

## Lecturas adicionales

* [Repositorio de GitHub](https://github.com/ace-step/ACE-Step)
* [Nodos ComfyUI](https://github.com/ace-step/ComfyUI-ACE-Step)
* [Guía de AudioCraft](https://docs.clore.ai/guides/guides_v2-es/audio-y-voz/audiocraft-music) — para música solo instrumental
