RVC клонирование голоса

Клонируйте и конвертируйте голоса с RVC на GPU Clore.ai

Клонируйте и превращайте голоса с помощью преобразования голоса на основе поиска (Retrieval-based Voice Conversion).

circle-check

Аренда на CLORE.AI

  1. Фильтровать по типу GPU, объёму видеопамяти и цене

  2. Выберите По требованию (фиксированная ставка) или Spot (цена заявки)

  3. Настройте ваш заказ:

    • Выберите Docker-образ

    • Укажите порты (TCP для SSH, HTTP для веб-интерфейсов)

    • При необходимости добавьте переменные окружения

    • Введите команду запуска

  4. Выберите способ оплаты: CLORE, BTC, или USDT/USDC

  5. Создайте заказ и дождитесь развертывания

Доступ к вашему серверу

  • Найдите данные для подключения в Мои заказы

  • Веб-интерфейсы: используйте URL HTTP-порта

  • SSH: ssh -p <port> root@<proxy-address>

Что такое RVC?

RVC (Retrieval-based Voice Conversion) может:

  • Клонировать любой голос с минимальным обучением

  • Преобразовывать пение/речь

  • Преобразование голоса в реальном времени

  • Высокое качество вывода

Требования

Задача
Мин. VRAM
Рекомендуется

Вывод (Inference)

4 ГБ

RTX 3060

Обучение

8 ГБ

RTX 3090

Реальное время

6 ГБ

RTX 3070

Быстрое развертывание

Docker-образ:

Порты:

Команда:

Доступ к вашему сервису

После развертывания найдите ваш http_pub URL в Мои заказы:

  1. Перейдите на Мои заказы страницу

  2. Кликните по вашему заказу

  3. Найдите http_pub URL (например, abc123.clorecloud.net)

Используйте https://YOUR_HTTP_PUB_URL вместо localhost в примерах ниже.

Установка

Преобразование голоса (Inference)

Использование веб-интерфейса

  1. Откройте http://<proxy>:7865

  2. Перейдите на вкладку «Model Inference»

  3. Загрузите аудиофайл

  4. Выберите модель голоса

  5. Настройте параметры

  6. Нажмите «Convert»

Python API

Обучение пользовательского голоса

Подготовить датасет

  1. Соберите 10–30 минут чистого аудио

  2. Нарежьте на клипы по 5–15 секунд

  3. Удалите фоновый шум/музыку

Обучение через веб-интерфейс

  1. Перейдите на вкладку «Train»

  2. Введите название эксперимента

  3. Установите путь к папке с обучением

  4. Нажмите «Process data»

  5. Нажмите «Feature extraction»

  6. Нажмите «Train»

Обучение через командную строку

Параметры обучения

Параметр
Описание
Рекомендуется

Частота дискретизации (Sample Rate)

Качество аудио

48000

Размер батча (Batch Size)

Пакет обучения

8-16

Эпохи

Итерации обучения

200-500

Сохранять каждые

Частота сохранения контрольных точек

20-50

Метод f0

Извлечение высоты тона

rmvpe

Методы F0

Метод
Качество
Скорость
Лучше всего для

pm

ОК

Быстро

Тестирование

harvest

Хорошо

Медленно

Общее

crepe

Отлично

Средне

Пение

rmvpe

Лучшее

Средне

Все

Преобразование в реальном времени

Настройка

Форматы моделей

Конвертация в ONNX

Предобработка аудио

Удаление шума

Нормализация громкости

Удаление тишины

Пакетная обработка

Преобразование голосового пения

Для песен используйте подходящие настройки:

Распространённые проблемы

Голос звучит роботизированно

  • Используйте исходное аудио более высокого качества

  • Увеличьте значение protect (0.4–0.5)

  • Попробуйте другой метод f0

Проблемы с тоном

  • Отрегулируйте f0_up_key

  • Используйте метод f0 rmvpe

  • Обеспечьте согласованность тона в тренировочных данных

Качество аудио

  • Используйте частоту дискретизации 48 кГц

  • Удалите фоновый шум из тренировочных данных

  • Обучайте дольше (больше эпох)

API-сервер

Советы по обучению

Для лучшего качества

  • Используйте более 20 минут чистого аудио

  • Удалите весь фоновый шум

  • Единообразная настройка микрофона/записи

  • Включите разнообразные выражения/эмоции

Для более быстрого обучения

  • Используйте размер батча 8–16

  • Включите смешанную точность (mixed precision)

  • Используйте NVMe SSD для датасета

Производительность

Задача
GPU
Время

Вывод (Inference) (1 мин аудио)

RTX 3090

~5 с

Обучение (датасет 30 мин)

RTX 3090

~2 часа

Преобразование в реальном времени

RTX 3070

Задержка <50 мс

Устранение неполадок

Оценка стоимости

Типичные тарифы на маркетплейсе CLORE.AI (по состоянию на 2024):

GPU
Почасовая ставка
Дневная ставка
Сессия 4 часа

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Цены варьируются в зависимости от провайдера и спроса. Проверьте CLORE.AI Marketplacearrow-up-right для текущих тарифов.

Экономьте деньги:

  • Используйте Spot рынок для гибких рабочих нагрузок (часто на 30–50% дешевле)

  • Платите с помощью CLORE токенов

  • Сравнивайте цены разных провайдеров

Следующие шаги

Последнее обновление

Это было полезно?