Fish Speech

Ejecuta Fish Speech, TTS multilingüe y clonación de voz zero-shot en las GPU de Clore.ai

Fish Speech es un sistema de texto a voz (TTS) multilingüe de última generación con capacidades de clonación de voz zero-shot. Con más de 15.000 estrellas en GitHub, admite inglés, chino, japonés, coreano, francés, alemán, árabe, español y más — todo desde un único modelo. Usando solo 10–15 segundos de audio de referencia, Fish Speech puede clonar cualquier voz con una fidelidad notable, lo que lo hace ideal para producción de audiolibros, doblaje, asistentes virtuales y creación de contenido a gran escala.

Fish Speech utiliza una arquitectura basada en transformers con un vocoder VQGAN, logrando puntuaciones de naturalidad cercanas a las humanas en benchmarks estándar de TTS. La WebUI (Gradio) la hace accesible sin escribir una sola línea de código, mientras que la API REST permite una integración fluida en pipelines de producción.

circle-check

Requisitos del servidor

Parámetro
Mínimo
Recomendado

GPU

NVIDIA RTX 3080 (10 GB)

NVIDIA RTX 4090 (24 GB)

VRAM

8 GB

16–24 GB

RAM

16 GB

32 GB

CPU

4 núcleos

8+ núcleos

Disco

20 GB

40 GB

SO

Ubuntu 20.04+

Ubuntu 22.04

CUDA

11.8+

12.1+

Puertos

22, 7860

22, 7860

circle-info

Fish Speech funciona de manera eficiente en GPUs de gama media (RTX 3080/3090). Para inferencia por lotes o servir a múltiples usuarios concurrentes, se recomienda una RTX 4090 o A100.


Despliegue rápido en CLORE.AI

La forma más rápida de poner en marcha Fish Speech es mediante la imagen oficial de Docker directamente desde Docker Hub.

1. Encuentra un servidor adecuado

Ve a CLORE.AI Marketplacearrow-up-right y filtra por:

  • VRAM: ≥ 8 GB

  • GPU: RTX 3080, 3090, 4080, 4090, A100, H100

  • Disco: ≥ 20 GB

2. Configura tu despliegue

En el formulario de pedido de CLORE.AI, configure lo siguiente:

Imagen Docker:

Mapeo de puertos:

Variables de entorno:

Comando de inicio (opcional — inicia automáticamente la WebUI):

3. Accede a la interfaz

Una vez desplegado, abra su navegador y vaya a:

La WebUI de Gradio se cargará con la interfaz completa de Fish Speech lista para usar.


Configuración paso a paso

Paso 1: Conéctate por SSH a tu servidor

Paso 2: Extraer y ejecutar el contenedor Docker

Paso 3: Verificar el acceso a la GPU

Debería ver su GPU listada con VRAM disponible.

Paso 4: Comprobar la descarga del modelo

Fish Speech descarga automáticamente los pesos del modelo en la primera ejecución (~3–5 GB). Monitorice el progreso:

Espere hasta que vea:

Paso 5: Acceder a la WebUI

Navegue a http://<server-ip>:7860 en su navegador.

Paso 6: (Opcional) Habilitar el servidor API


Ejemplos de uso

Ejemplo 1: Texto a voz básico vía WebUI

  1. Abra la WebUI en http://<server-ip>:7860

  2. Introduzca texto en el "Text" campo:

  3. Seleccione idioma: Inglés

  4. Haz clic "Generate"

  5. Descargue el .wav archivo


Ejemplo 2: Clonación de voz zero-shot

Clone cualquier voz usando solo 10–15 segundos de audio de referencia:

  1. En la WebUI, navegue a la "Voice Clone" pestaña

  2. Suba su archivo de audio de referencia (.wav o .mp3, 10–30 segundos)

  3. Introduzca la transcripción del audio de referencia (opcional pero mejora la calidad)

  4. Introduzca el texto objetivo a sintetizar

  5. Haz clic "Clone & Generate"

El modelo analizará las características de la voz y sintetizará el habla en esa voz.


Ejemplo 3: TTS basado en API (Python)


Ejemplo 4: TTS multilingüe


Ejemplo 5: Procesamiento por lotes de archivos de audio


Configuración

Docker Compose (Configuración de Producción)

Opciones clave de configuración

Opción
Por defecto
Descripción

--listen

0.0.0.0

Interfaz para enlazar el servidor

--port

7860

Puerto para la WebUI de Gradio

--compile

false

Habilitar torch.compile para inferencia más rápida

--device

cuda

Dispositivo a usar (cuda, cpu, mps)

--half

true

Usar precisión mitad FP16 (ahorra VRAM)

--num_samples

1

Número de muestras de audio a generar

--max_new_tokens

1024

Máximo de nuevos tokens para la generación

Variantes del modelo

Modelo
Tamaño
Idiomas
Notas

fish-speech-1.4

~3 GB

8 idiomas

Última versión estable

fish-speech-1.2-sft

~2.5 GB

8 idiomas

Variante afinada

fish-speech-1.2

~2.5 GB

8 idiomas

Modelo base


Consejos de rendimiento

1. Habilitar torch.compile para una inferencia más rápida

La primera ejecución será más lenta (la compilación tarda 2–5 minutos), pero la inferencia posterior será 20–40 % más rápida.

2. Usar media precisión (FP16)

FP16 reduce el uso de VRAM en ~50% con una pérdida de calidad mínima:

3. Pre-cargar voces de referencia

Almacene voces de referencia usadas frecuentemente en el directorio de referencias del contenedor para evitar reprocesarlas:

4. Optimización de memoria GPU

5. Ajuste del tamaño de lote

Para solicitudes API en lote, tamaños de lote óptimos:

  • RTX 3080 (10 GB): batch_size = 1–2

  • RTX 3090/4090 (24 GB): batch_size = 4–8

  • A100 (40/80 GB): batch_size = 16–32


Solución de problemas

Problema: El contenedor no arranca — CUDA no encontrado

Problema: Error por falta de memoria (OOM)

Problema: Puerto 7860 no accesible

Problema: La descarga del modelo falla / descarga lenta

Problema: La calidad de audio es pobre

  • Asegúrese de que el audio de referencia esté limpio (sin ruido de fondo, frecuencia de muestreo ≥16 kHz)

  • Mantenga el audio de referencia entre 10–30 segundos

  • Proporcione la transcripción del audio de referencia para un mejor alineamiento

  • Intente aumentar --num_samples para generar múltiples opciones y elegir la mejor

Problema: La WebUI carga pero la generación se queda colgada


Enlaces


Recomendaciones de GPU en Clore.ai

Caso de uso
GPU recomendada
Coste estimado en Clore.ai

Desarrollo/Pruebas

RTX 3090 (24GB)

~$0.12/gpu/hr

TTS de producción

RTX 4090 (24GB)

~$0.70/gpu/hr

Inferencia de alto rendimiento

A100 80GB

~$1.20/gpu/hr

💡 Todos los ejemplos en esta guía pueden desplegarse en Clore.aiarrow-up-right servidores GPU. Navega las GPUs disponibles y alquila por hora — sin compromisos, acceso root completo.

Última actualización

¿Te fue útil?