F5-TTS

Texto a voz rápido y fluido con F5-TTS en GPUs de Clore.ai

Genera voz natural con F5-TTS: un sistema TTS rápido y fluido.

circle-check

Alquilar en CLORE.AI

  1. Filtrar por tipo de GPU, VRAM y precio

  2. Elegir Bajo demanda (tarifa fija) o Spot (precio de puja)

  3. Configura tu pedido:

    • Selecciona imagen Docker

    • Establece puertos (TCP para SSH, HTTP para interfaces web)

    • Agrega variables de entorno si es necesario

    • Introduce el comando de inicio

  4. Selecciona pago: CLORE, BTC, o USDT/USDC

  5. Crea el pedido y espera el despliegue

Accede a tu servidor

  • Encuentra los detalles de conexión en Mis Pedidos

  • Interfaces web: Usa la URL del puerto HTTP

  • SSH: ssh -p <port> root@<proxy-address>

¿Qué es F5-TTS?

F5-TTS ofrece:

  • Inferencia rápida (más rápida que el tiempo real)

  • Prosodia e intonación naturales

  • Clonación de voz zero-shot

  • Soporte multilingüe

Recursos

Hardware recomendado

Componente
Mínimo
Recomendado
Óptimo

GPU

RTX 3060 12GB

RTX 4080 16GB

RTX 4090 24GB

VRAM

6GB

12GB

16GB

CPU

4 núcleos

8 núcleos

16 núcleos

RAM

16GB

32GB

64GB

Almacenamiento

SSD de 20 GB

50GB NVMe

100GB NVMe

Internet

100 Mbps

500 Mbps

1 Gbps

Despliegue rápido en CLORE.AI

Imagen Docker:

Puertos:

Comando:

Accediendo a tu servicio

Después del despliegue, encuentra tu http_pub URL en Mis Pedidos:

  1. Ir a Mis Pedidos página

  2. Haz clic en tu pedido

  3. Encuentra la http_pub URL (por ejemplo, abc123.clorecloud.net)

Usa https://TU_HTTP_PUB_URL en lugar de localhost en los ejemplos abajo.

Instalación

Lo que puedes crear

Contenido de voz

  • Producción de podcasts

  • Narración de audiolibros

  • Locución para vídeos

Accesibilidad

  • Lectores de pantalla

  • Lectores de documentos

  • Materiales de aprendizaje

Aplicaciones interactivas

  • Asistentes de voz

  • NPCs en juegos

  • Bots de atención al cliente

Proyectos creativos

  • Voces de personajes

  • Dramas de audio

  • Voces en música

Uso básico

TTS simple

Clonación de voz

Soporte multilingüe

Procesamiento por lotes

Audio de larga duración

Interfaz Gradio

Servidor API

Rendimiento

Longitud del texto
GPU
Tiempo de generación
Factor en tiempo real

100 caracteres

RTX 3090

0.5s

5x

100 caracteres

RTX 4090

0.3s

8x

500 caracteres

RTX 4090

1.2s

10x

1000 caracteres

A100

2.0s

12x

Problemas comunes y soluciones

Pobre coincidencia de voz

Problema: La voz generada no coincide con la de referencia

Soluciones:

  • Use 5-15 segundos de audio de referencia claro

  • Proporcione una transcripción precisa del texto de referencia

  • Evite el ruido de fondo en la referencia

  • Haga coincidir el idioma del texto y de la referencia

Problemas de pronunciación

Problema: Pronuncia mal palabras o nombres

Soluciones:

Problemas de calidad de audio

Problema: La salida suena robótica o distorsionada

Soluciones:

  • Use audio de referencia de alta calidad (24 kHz+)

  • Limpie la referencia del ruido

  • Pruebe diferentes muestras de referencia

  • Aumente las configuraciones de calidad de generación

Problemas de memoria

Problema: Memoria insuficiente para textos largos

Soluciones:

Generación lenta

Problema: Tarda demasiado en generar

Soluciones:

  • Use inferencia en GPU (CUDA)

  • Reduzca chunk_size para un procesamiento más rápido

  • Use RTX 4090 o superior

  • Habilite media precisión (fp16)

Solución de problemas

La voz no coincide con la referencia

  • Use 5-15 segundos de audio de referencia claro

  • Transcriba con precisión el texto de referencia

  • Evite el ruido de fondo en la referencia

Problemas de calidad de audio

  • Use referencia con alta tasa de muestreo (24 kHz+)

  • Limpie la referencia del ruido

  • Pruebe diferentes muestras de referencia

Generación lenta

  • Use CUDA (no CPU)

  • Reduzca la longitud del texto o divídalo en fragmentos

  • Use tamaños de lote más pequeños

Desajuste de idioma

  • Haga coincidir el idioma del texto con el del audio de referencia

  • Algunos idiomas necesitan modelos específicos

Estimación de costos

Tarifas típicas del marketplace de CLORE.AI (a fecha de 2024):

GPU
Tarifa por hora
Tarifa diaria
Sesión de 4 horas

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Los precios varían según el proveedor y la demanda. Consulta CLORE.AI Marketplacearrow-up-right para las tarifas actuales.

Ahorra dinero:

  • Usa Spot market para cargas de trabajo flexibles (a menudo 30-50% más barato)

  • Paga con CLORE tokens

  • Compara precios entre diferentes proveedores

Próximos pasos

Última actualización

¿Te fue útil?