SadTalker

Создавайте говорящие видеоролики головы из аудио и изображений на Clore.ai

Анимируйте лица с помощью аудио, чтобы создавать реалистичные видеоролики с говорящей головой.

circle-check

Аренда на CLORE.AI

  1. Фильтровать по типу GPU, объёму видеопамяти и цене

  2. Выберите По требованию (фиксированная ставка) или Spot (цена заявки)

  3. Настройте ваш заказ:

    • Выберите Docker-образ

    • Укажите порты (TCP для SSH, HTTP для веб-интерфейсов)

    • При необходимости добавьте переменные окружения

    • Введите команду запуска

  4. Выберите способ оплаты: CLORE, BTC, или USDT/USDC

  5. Создайте заказ и дождитесь развертывания

Доступ к вашему серверу

  • Найдите данные для подключения в Мои заказы

  • Веб-интерфейсы: используйте URL HTTP-порта

  • SSH: ssh -p <port> root@<proxy-address>

Что такое SadTalker?

SadTalker генерирует говорящие видео:

  • Синхронизация губ с любым аудио

  • Естественные движения головы

  • Работает с одним изображением

  • Контроль выражения лица

Требования

Режим
VRAM
Рекомендуется

Базовый

4 ГБ

RTX 3060

Высокое качество

6 ГБ

RTX 3080

Полное лицо

8 ГБ

RTX 4080

Быстрое развертывание

Docker-образ:

Порты:

Команда:

Доступ к вашему сервису

После развертывания найдите ваш http_pub URL в Мои заказы:

  1. Перейдите на Мои заказы страницу

  2. Кликните по вашему заказу

  3. Найдите http_pub URL (например, abc123.clorecloud.net)

Используйте https://YOUR_HTTP_PUB_URL вместо localhost в примерах ниже.

Установка

Базовое использование

Командная строка

Python API

С улучшением лица

Параметры

Стили поз

Диапазон
Эффект

0-5

Тонкие движения

6-20

Обычные движения

21-46

Выразительные движения

Пакетная обработка

Интерфейс Gradio

API-сервер

Текст-в-речь + SadTalker

Полный конвейер:

Контроль выражения

Настройки качества

Параметр
Скорость
Качество

Без улучшителя, 256px

Быстро

Базовый

GFPGAN, 256px

Средне

Хорошо

GFPGAN, 512px

Медленно

Лучше

RealESRGAN, 512px

Самый медленный

Лучшее

Опции предобработки

Устранение неполадок

Лицо не обнаружено

  • Используйте четкое фронтальное фото лица

  • Хорошее освещение

  • Избегайте перекрытий (очки, волосы)

Проблемы с синхронизацией аудио

  • Используйте WAV-файлы 16 кГц

  • Избегайте фоновой музыки

  • Только четкая речь

Рывистое движение

  • Немного увеличьте expression_scale

  • Попробуйте другой pose_style

  • Используйте более длинное аудио

Недостаточно памяти

  • Уменьшите размер выходного файла

  • Отключите улучшитель

  • Используйте предобработку crop

Производительность

Разрешение
GPU
Время (видео 10 с)

256px

RTX 3060

~30с

256px

RTX 4090

~15с

512px + GFPGAN

RTX 4090

~45с

Оценка стоимости

Типичные тарифы на маркетплейсе CLORE.AI (по состоянию на 2024):

GPU
Почасовая ставка
Дневная ставка
Сессия 4 часа

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Цены варьируются в зависимости от провайдера и спроса. Проверьте CLORE.AI Marketplacearrow-up-right для текущих тарифов.

Экономьте деньги:

  • Используйте Spot рынок для гибких рабочих нагрузок (часто на 30–50% дешевле)

  • Платите с помощью CLORE токенов

  • Сравнивайте цены разных провайдеров

Следующие шаги

  • Wav2Lip - Альтернативная синхронизация губ

  • Bark TTS - Сгенерировать речь

  • XTTS - Клонирование голоса + TTS

Последнее обновление

Это было полезно?