XTTS (Coqui)

Натуральный синтез речи и клонирование голоса с Coqui XTTS

Генерируйте натуральную речь с клонированием голоса с помощью Coqui XTTS.

circle-check

Аренда на CLORE.AI

  1. Отфильтруйте по типу GPU, объему VRAM и цене

  2. Выберите On-Demand (фиксированная ставка) или Spot (цена по ставке)

  3. Настройте ваш заказ:

    • Выберите Docker-образ

    • Установите порты (TCP для SSH, HTTP для веб-интерфейсов)

    • Добавьте переменные окружения при необходимости

    • Введите команду запуска

  4. Выберите способ оплаты: CLORE, BTC, или USDT/USDC

  5. Создайте заказ и дождитесь развертывания

Доступ к вашему серверу

  • Найдите данные для подключения в Моих заказах

  • Веб-интерфейсы: используйте URL HTTP-порта

  • SSH: ssh -p <port> root@<proxy-address>

Что такое XTTS?

XTTS (от Coqui) предлагает:

  • Высококачественное преобразование текста в речь

  • Клонирование голоса по 6 секундам аудио

  • Поддержка 17 языков

  • Эмоциональное управление

  • Поддержка потоковой передачи

Требования

Режим
VRAM
Рекомендуется

Вывод (Inference)

4 ГБ

RTX 3060

Быстрая инференция

6 ГБ

RTX 3080

Потоковая передача (Streaming)

4 ГБ

RTX 3060

Быстрое развертывание

Docker-образ:

Порты:

Команда:

Доступ к вашему сервису

После развертывания найдите ваш http_pub URL в Моих заказах:

  1. Перейдите на Моих заказах страницу

  2. Нажмите на ваш заказ

  3. Найдите http_pub URL (например, abc123.clorecloud.net)

Используйте https://YOUR_HTTP_PUB_URL вместо localhost в примерах ниже.

Установка

Базовое использование

Простой TTS

Клонирование голоса

Несколько языков

Поддерживаемые языки

Код
Язык

en

Английский

es

Испанский

fr

Французский

de

Немецкий

it

Итальянский

pt

Португальский

pl

Польский

tr

Турецкий

ru

Русский

nl

Нидерландский

cs

Чешский

ar

Арабский

zh-cn

Китайский

ja

Японский

hu

Венгерский

ko

Корейский

hi

Хинди

Потоковый TTS

Интерфейс Gradio

API-сервер

Пакетная обработка

Тонкая настройка голоса

Для лучшего клонирования голоса:

Предобработка аудио

Производительность

Режим
GPU
Скорость

Стандартный

RTX 3060

~0.5x в реальном времени

Стандартный

RTX 4090

~2x реального времени

Потоковая передача (Streaming)

RTX 3060

~1x реального времени

Потоковая передача (Streaming)

RTX 4090

~3x в реальном времени

Советы по качеству

  • Используйте 6–15 секунд чистого опорного аудио

  • Избегайте фонового шума в образце

  • Совпадение языка текста и образца

  • Используйте несколько опорных образцов для лучшего результата

Устранение неполадок

Плохое качество голоса

  • Чистое опорное аудио

  • Более длинное опорное аудио (10+ секунд)

  • Соответствие стилю речи

Неправильное произношение языка

  • Убедитесь в правильном коде языка

  • Используйте опору от носителя языка

Медленная генерация

  • Включите инференцию на GPU

  • Используйте потоковый режим

  • Уменьшите длину текста за вызов

Оценка стоимости

Типичные ставки на маркетплейсе CLORE.AI (по состоянию на 2024):

GPU
Почасовая ставка
Дневная ставка
Сессия 4 часа

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Цены варьируются в зависимости от провайдера и спроса. Проверьте CLORE.AI Marketplacearrow-up-right для текущих тарифов.

Экономьте деньги:

  • Используйте Spot рынок для гибких рабочих нагрузок (часто на 30–50% дешевле)

  • Платите с помощью CLORE токенов

  • Сравнивайте цены у разных провайдеров

Дальнейшие шаги

Последнее обновление

Это было полезно?