Wav2Lip

Точный липсинк под любое аудио с Wav2Lip на GPU Clore.ai

Синхронизируйте губы с любым аудио с помощью Wav2Lip.

Все примеры можно запускать на GPU-серверах, арендуемых через CLORE.AI Marketplace.

Аренда на CLORE.AI

Посетите CLORE.AI Marketplace
Отфильтруйте по типу GPU, объему VRAM и цене
Выберите On-Demand (фиксированная ставка) или Spot (цена по ставке)
Настройте ваш заказ:
- Выберите Docker-образ
- Установите порты (TCP для SSH, HTTP для веб-интерфейсов)
- Добавьте переменные окружения при необходимости
- Введите команду запуска
Выберите способ оплаты: CLORE, BTC, или USDT/USDC
Создайте заказ и дождитесь развертывания

Доступ к вашему серверу

Найдите данные для подключения в Моих заказах
Веб-интерфейсы: используйте URL HTTP-порта
SSH: ssh -p <port> root@<proxy-address>

Что такое Wav2Lip?

Wav2Lip предоставляет:

Точная синхронизация губ для любого лица
Работает с любым аудио
Входное видео или изображение
Поддержка в реальном времени

Требования

Режим

VRAM

Рекомендуется

Базовый

4 ГБ

RTX 3060

Высокое качество

6 ГБ

RTX 3080

8GB

RTX 4080

Быстрое развертывание

Docker-образ:

pytorch/pytorch:2.5.1-cuda12.4-cudnn9-devel

Порты:

22/tcp
7860/http

Команда:

cd /workspace && \
git clone https://github.com/Rudrabha/Wav2Lip.git && \
cd Wav2Lip && \
pip install -r requirements.txt && \
wget "https://huggingface.co/spaces/wav2lip/wav2lip/resolve/main/checkpoints/wav2lip_gan.pth" -P checkpoints/ && \
python app.py

Доступ к вашему сервису

После развертывания найдите ваш http_pub URL в Моих заказах:

Перейдите на Моих заказах страницу
Нажмите на ваш заказ
Найдите http_pub URL (например, abc123.clorecloud.net)

Используйте https://YOUR_HTTP_PUB_URL вместо localhost в примерах ниже.

Установка

git clone https://github.com/Rudrabha/Wav2Lip.git
cd Wav2Lip
pip install -r requirements.txt

# Загрузите предварительно обученные модели
mkdir -p checkpoints
wget "https://huggingface.co/spaces/wav2lip/wav2lip/resolve/main/checkpoints/wav2lip.pth" -P checkpoints/
wget "https://huggingface.co/spaces/wav2lip/wav2lip/resolve/main/checkpoints/wav2lip_gan.pth" -P checkpoints/

Базовое использование

Командная строка

python inference.py \
    --checkpoint_path checkpoints/wav2lip_gan.pth \
    --face input_video.mp4 \
    --audio audio.wav \
    --outfile output.mp4

С входным изображением

python inference.py \
    --checkpoint_path checkpoints/wav2lip_gan.pth \
    --face face_image.jpg \
    --audio speech.wav \
    --outfile talking.mp4

Python API

import subprocess

def wav2lip_sync(face_path, audio_path, output_path, checkpoint="checkpoints/wav2lip_gan.pth"):
    cmd = [
        "python", "inference.py",
        "--checkpoint_path", checkpoint,
        "--face", face_path,
        "--audio", audio_path,
        "--outfile", output_path
    ]
    subprocess.run(cmd, check=True)
    return output_path

# Пример использования
result = wav2lip_sync(
    face_path="video.mp4",
    audio_path="new_audio.wav",
    output_path="synced.mp4"
)

Параметры качества

Стандартное качество (быстрее)

python inference.py \
    --checkpoint_path checkpoints/wav2lip.pth \
    --face input.mp4 \
    --audio audio.wav \
    --outfile output.mp4

Высокое качество (GAN)

python inference.py \
    --checkpoint_path checkpoints/wav2lip_gan.pth \
    --face input.mp4 \
    --audio audio.wav \
    --outfile output.mp4 \
    --pads 0 10 0 0 \
    --resize_factor 1

Параметры

python inference.py \
    --checkpoint_path checkpoints/wav2lip_gan.pth \
    --face video.mp4 \
    --audio audio.wav \
    --outfile result.mp4 \
    --pads 0 10 0 0 \      # Padding: top right bottom left
    --resize_factor 1 \    # Downscale factor
    --crop "0 -1 0 -1" \   # Crop region
    --box "-1 -1 -1 -1" \  # Face box (auto-detect)
    --nosmooth            # Disable temporal smoothing

Советы по отступам (Padding)

Положение лица

Рекомендуемые отступы

По центру

0 10 0 0

Крупный план

0 15 0 0

Вдали

0 5 0 0

Пакетная обработка

import os
import subprocess

def batch_wav2lip(faces_dir, audio_path, output_dir):
    os.makedirs(output_dir, exist_ok=True)

    for filename in os.listdir(faces_dir):
        if filename.endswith(('.mp4', '.jpg', '.png')):
            face_path = os.path.join(faces_dir, filename)
            output_path = os.path.join(output_dir, f"synced_{filename}")

            if filename.endswith(('.jpg', '.png')):
                output_path = output_path.rsplit('.', 1)[0] + '.mp4'

            cmd = [
                "python", "inference.py",
                "--checkpoint_path", "checkpoints/wav2lip_gan.pth",
                "--face", face_path,
                "--audio", audio_path,
                "--outfile", output_path
            ]

            try:
                subprocess.run(cmd, check=True)
                print(f"Обработано: {filename}")
            except subprocess.CalledProcessError as e:
                print(f"Error processing {filename}: {e}")

# Пример использования
batch_wav2lip("./faces", "speech.wav", "./outputs")

Интерфейс Gradio

import gradio as gr
import subprocess
import tempfile
import os

def lip_sync(face_video, audio, quality):
    checkpoint = "checkpoints/wav2lip_gan.pth" if quality == "High (GAN)" else "checkpoints/wav2lip.pth"

    with tempfile.NamedTemporaryFile(suffix=".mp4", delete=False) as out_file:
        output_path = out_file.name

    cmd = [
        "python", "inference.py",
        "--checkpoint_path", checkpoint,
        "--face", face_video,
        "--audio", audio,
        "--outfile", output_path
    ]

    subprocess.run(cmd, check=True)
    return output_path

demo = gr.Interface(
    fn=lip_sync,
    inputs=[
        gr.Video(label="Face Video/Image"),
        gr.Audio(type="filepath", label="Audio"),
        gr.Radio(["Standard", "High (GAN)"], value="High (GAN)", label="Quality")
    ],
    outputs=gr.Video(label="Lip-Synced Video"),
    title="Wav2Lip - Lip Sync"
)

demo.launch(server_name="0.0.0.0", server_port=7860)

API-сервер

from fastapi import FastAPI, UploadFile, File
from fastapi.responses import FileResponse
import tempfile
import subprocess
import os

app = FastAPI()

@app.post("/sync")
async def sync_lips(
    face: UploadFile = File(...),
    audio: UploadFile = File(...),
    quality: str = "gan"
):
    with tempfile.TemporaryDirectory() as tmpdir:
        # Сохранить загруженные файлы
        face_ext = os.path.splitext(face.filename)[1]
        face_path = os.path.join(tmpdir, f"face{face_ext}")
        audio_path = os.path.join(tmpdir, "audio.wav")
        output_path = os.path.join(tmpdir, "output.mp4")

        with open(face_path, "wb") as f:
            f.write(await face.read())
        with open(audio_path, "wb") as f:
            f.write(await audio.read())

        # Run Wav2Lip
        checkpoint = "checkpoints/wav2lip_gan.pth" if quality == "gan" else "checkpoints/wav2lip.pth"

        cmd = [
            "python", "inference.py",
            "--checkpoint_path", checkpoint,
            "--face", face_path,
            "--audio", audio_path,
            "--outfile", output_path
        ]

        subprocess.run(cmd, check=True)

        return FileResponse(output_path, media_type="video/mp4")

# Запуск: uvicorn server:app --host 0.0.0.0 --port 8000

TTS + Wav2Lip конвейер

Полный текст в видео:

from TTS.api import TTS
import subprocess

def text_to_lipsync(text, face_path, output_path, language="en"):
    # Сгенерировать речь
    tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2")
    audio_path = "temp_speech.wav"
    tts.tts_to_file(text=text, file_path=audio_path, language=language)

    # Синхронизация губ
    cmd = [
        "python", "inference.py",
        "--checkpoint_path", "checkpoints/wav2lip_gan.pth",
        "--face", face_path,
        "--audio", audio_path,
        "--outfile", output_path
    ]
    subprocess.run(cmd, check=True)

    return output_path

# Пример использования
text_to_lipsync(
    "Hello, welcome to our presentation.",
    "presenter.jpg",
    "talking_presenter.mp4"
)

Постобработка

Увеличение разрешения результата

import subprocess

def upscale_video(input_path, output_path):
    cmd = [
        "python", "-m", "realesrgan",
        "--input", input_path,
        "--output", output_path,
        "--scale", "2"
    ]
    subprocess.run(cmd, check=True)

Добавить аудио обратно


# Если аудио было утеряно, добавьте его обратно
ffmpeg -i synced_video.mp4 -i original_audio.wav \
    -c:v copy -c:a aac \
    -map 0:v:0 -map 1:a:0 \
    final_output.mp4

Устранение неполадок

Лицо не обнаружено

Убедитесь, что лицо хорошо видно
Хорошее освещение
Предпочтительно фронтальное положение
Вход в более высоком разрешении

Плохое качество синхронизации

Используйте wav2lip_gan.pth
Отрегулируйте отступы (padding)
Проверьте частоту дискретизации аудио (рекомендуется 16 кГц)

Прерывистый вывод

Увеличьте resize_factor
Отключите nosmooth
Используйте видео вход более высокого качества

Производительность

Вход

GPU

Время обработки

10-секундное видео

RTX 3060

~30с

10-секундное видео

RTX 4090

~15с

30-секундное видео

RTX 4090

~45с

Изображение + 10 секунд аудио

RTX 3090

~20 с

Сравнение с SadTalker

Функция

Wav2Lip

SadTalker

Точность губ

Отлично

Хорошо

Движение головы

Нет

Естественное

Выражение

Нет

Контролируемое

Скорость

Быстрее

Медленнее

Лучше всего для

Дублирование (дублинг)

Аватары

Оценка стоимости

Типичные ставки на маркетплейсе CLORE.AI (по состоянию на 2024):

GPU

Почасовая ставка

Дневная ставка

Сессия 4 часа

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Цены варьируются в зависимости от провайдера и спроса. Проверьте CLORE.AI Marketplace для текущих тарифов.

Экономьте деньги:

Используйте Spot рынок для гибких рабочих нагрузок (часто на 30–50% дешевле)
Платите с помощью CLORE токенов
Сравнивайте цены у разных провайдеров

Дальнейшие шаги

SadTalker - Движение головы + губы
XTTS - Сгенерировать речь
RVC Клонирование голоса - Преобразование голоса

ПредыдущаяSadTalker СледующаяОбзор

Последнее обновление 1 месяц назад

Это было полезно?

hashtagАренда на CLORE.AI

hashtagДоступ к вашему серверу

hashtagЧто такое Wav2Lip?

hashtagТребования

hashtagБыстрое развертывание

hashtagДоступ к вашему сервису

hashtagУстановка

hashtagБазовое использование

hashtagКомандная строка

hashtagС входным изображением

hashtagPython API

hashtagПараметры качества

hashtagСтандартное качество (быстрее)

hashtagВысокое качество (GAN)

hashtagПараметры

hashtagСоветы по отступам (Padding)

hashtagПакетная обработка

hashtagИнтерфейс Gradio

hashtagAPI-сервер

hashtagTTS + Wav2Lip конвейер

hashtagПостобработка

hashtagУвеличение разрешения результата

hashtagДобавить аудио обратно

hashtagУстранение неполадок

hashtagЛицо не обнаружено

hashtagПлохое качество синхронизации

hashtagПрерывистый вывод

hashtagПроизводительность

hashtagСравнение с SadTalker

hashtagОценка стоимости

hashtagДальнейшие шаги

Аренда на CLORE.AI

Доступ к вашему серверу

Что такое Wav2Lip?

Требования

Быстрое развертывание

Доступ к вашему сервису

Установка

Базовое использование

Командная строка

С входным изображением

Python API

Параметры качества

Стандартное качество (быстрее)

Высокое качество (GAN)

Параметры

Советы по отступам (Padding)

Пакетная обработка

Интерфейс Gradio

API-сервер

TTS + Wav2Lip конвейер

Постобработка

Увеличение разрешения результата

Добавить аудио обратно

Устранение неполадок

Лицо не обнаружено

Плохое качество синхронизации

Прерывистый вывод

Производительность

Сравнение с SadTalker

Оценка стоимости

Дальнейшие шаги