Wav2Lip

Sincronización labial precisa con cualquier audio usando Wav2Lip en GPUs de Clore.ai

Sincroniza los labios con cualquier audio con Wav2Lip.

circle-check

Alquilar en CLORE.AI

  1. Filtrar por tipo de GPU, VRAM y precio

  2. Elegir Bajo demanda (tarifa fija) o Spot (precio de puja)

  3. Configura tu pedido:

    • Selecciona imagen Docker

    • Establece puertos (TCP para SSH, HTTP para interfaces web)

    • Agrega variables de entorno si es necesario

    • Introduce el comando de inicio

  4. Selecciona pago: CLORE, BTC, o USDT/USDC

  5. Crea el pedido y espera el despliegue

Accede a tu servidor

  • Encuentra los detalles de conexión en Mis Pedidos

  • Interfaces web: Usa la URL del puerto HTTP

  • SSH: ssh -p <port> root@<proxy-address>

¿Qué es Wav2Lip?

Wav2Lip ofrece:

  • Sincronización labial precisa para cualquier rostro

  • Funciona con cualquier audio

  • Entrada de video o imagen

  • Capaz de tiempo real

Requisitos

Modo
VRAM
Recomendado

Básico

4GB

RTX 3060

Alta calidad

6GB

RTX 3080

HD

8GB

RTX 4080

Despliegue rápido

Imagen Docker:

Puertos:

Comando:

Accediendo a tu servicio

Después del despliegue, encuentra tu http_pub URL en Mis Pedidos:

  1. Ir a Mis Pedidos página

  2. Haz clic en tu pedido

  3. Encuentra la http_pub URL (por ejemplo, abc123.clorecloud.net)

Usa https://TU_HTTP_PUB_URL en lugar de localhost en los ejemplos abajo.

Instalación

Uso básico

Línea de comandos

Con entrada de imagen

API de Python

Opciones de calidad

Calidad estándar (más rápido)

Alta calidad (GAN)

Parámetros

Consejos de relleno

Posición de la cara
Rellenos recomendados

Centrada

0 10 0 0

Primer plano

0 15 0 0

Lejana

0 5 0 0

Procesamiento por lotes

Interfaz Gradio

Servidor API

TTS + canal Wav2Lip

Texto a video completo:

Postprocesamiento

Mejorar resultado

Agregar audio de nuevo

Solución de problemas

Rostro no detectado

  • Asegúrate de que la cara sea claramente visible

  • Buena iluminación

  • Preferible de frente

  • Entrada de mayor resolución

Mala calidad de sincronización

  • Usar wav2lip_gan.pth

  • Ajustar el relleno

  • Verificar la tasa de muestreo del audio (se recomienda 16 kHz)

Salida entrecortada

  • Aumentar resize_factor

  • Desactivar nosmooth

  • Usar video de entrada de mayor calidad

Rendimiento

Entrada
GPU
Tiempo de procesamiento

video de 10 s

RTX 3060

~30s

video de 10 s

RTX 4090

~15s

video de 30 s

RTX 4090

~45s

Imagen + audio de 10 s

RTX 3090

~20 s

Comparación con SadTalker

Función
Wav2Lip
SadTalker

Precisión labial

Excelente

Bueno

Movimiento de cabeza

Ninguna

Natural

Expresión

Ninguna

Controlable

Velocidad

Más rápido

Más lento

Mejor para

Doblaje

Avatares

Estimación de costos

Tarifas típicas del marketplace de CLORE.AI (a fecha de 2024):

GPU
Tarifa por hora
Tarifa diaria
Sesión de 4 horas

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Los precios varían según el proveedor y la demanda. Consulta CLORE.AI Marketplacearrow-up-right para las tarifas actuales.

Ahorra dinero:

  • Usa Spot market para cargas de trabajo flexibles (a menudo 30-50% más barato)

  • Paga con CLORE tokens

  • Compara precios entre diferentes proveedores

Próximos pasos

Última actualización

¿Te fue útil?