XTTS (Coqui)

Generación natural de voz con clonación de voz usando Coqui XTTS

Genera habla natural con clonación de voz usando Coqui XTTS.

circle-check

Alquilar en CLORE.AI

  1. Filtrar por tipo de GPU, VRAM y precio

  2. Elegir Bajo demanda (tarifa fija) o Spot (precio de puja)

  3. Configura tu pedido:

    • Selecciona imagen Docker

    • Establece puertos (TCP para SSH, HTTP para interfaces web)

    • Agrega variables de entorno si es necesario

    • Introduce el comando de inicio

  4. Selecciona pago: CLORE, BTC, o USDT/USDC

  5. Crea el pedido y espera el despliegue

Accede a tu servidor

  • Encuentra los detalles de conexión en Mis Pedidos

  • Interfaces web: Usa la URL del puerto HTTP

  • SSH: ssh -p <port> root@<proxy-address>

¿Qué es XTTS?

XTTS (por Coqui) ofrece:

  • Texto a voz de alta calidad

  • Clonación de voz a partir de 6 segundos de audio

  • 17 idiomas compatibles

  • Control emocional

  • Soporte de transmisión

Requisitos

Modo
VRAM
Recomendado

Inferencia

4GB

RTX 3060

Inferencia rápida

6GB

RTX 3080

Streaming

4GB

RTX 3060

Despliegue rápido

Imagen Docker:

Puertos:

Comando:

Accediendo a tu servicio

Después del despliegue, encuentra tu http_pub URL en Mis Pedidos:

  1. Ir a Mis Pedidos página

  2. Haz clic en tu pedido

  3. Encuentra la http_pub URL (por ejemplo, abc123.clorecloud.net)

Usa https://TU_HTTP_PUB_URL en lugar de localhost en los ejemplos abajo.

Instalación

Uso básico

TTS simple

Clonación de voz

Múltiples idiomas

Idiomas compatibles

Código
Idioma

en

Inglés

es

Español

fr

Francés

de

Alemán

it

Italiano

pt

Portugués

pl

Polaco

tr

Turco

ru

Ruso

nl

Neerlandés

cs

Checo

ar

Árabe

zh-cn

Chino

ja

Japonés

hu

Húngaro

ko

Coreano

hi

Hindi

TTS por transmisión

Interfaz Gradio

Servidor API

Procesamiento por lotes

Ajuste fino de la voz

Para una mejor clonación de voz:

Preprocesamiento de audio

Rendimiento

Modo
GPU
Velocidad

Estándar

RTX 3060

~0.5x en tiempo real

Estándar

RTX 4090

~2x tiempo real

Streaming

RTX 3060

~1x tiempo real

Streaming

RTX 4090

~3x en tiempo real

Consejos de calidad

  • Use de 6 a 15 segundos de audio de referencia limpio

  • Evite el ruido de fondo en la referencia

  • Haga coincidir el idioma del texto y de la referencia

  • Use múltiples muestras de referencia para mejores resultados

Solución de problemas

Mala calidad de voz

  • Audio de referencia limpio

  • Referencia más larga (10+ segundos)

  • Coincidir el estilo de habla

Pronunciación en idioma incorrecto

  • Asegúrese del código de idioma correcto

  • Use referencia de hablante nativo

Generación lenta

  • Habilitar inferencia en GPU

  • Usar modo de transmisión

  • Reducir la longitud del texto por llamada

Estimación de costos

Tarifas típicas del marketplace de CLORE.AI (a fecha de 2024):

GPU
Tarifa por hora
Tarifa diaria
Sesión de 4 horas

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Los precios varían según el proveedor y la demanda. Consulta CLORE.AI Marketplacearrow-up-right para las tarifas actuales.

Ahorra dinero:

  • Usa Spot market para cargas de trabajo flexibles (a menudo 30-50% más barato)

  • Paga con CLORE tokens

  • Compara precios entre diferentes proveedores

Próximos pasos

Última actualización

¿Te fue útil?