SadTalker

Crea videos de cabezas parlantes a partir de audio e imágenes en Clore.ai

Anima rostros con audio para crear videos realistas de cabezas parlantes.

circle-check

Alquiler en CLORE.AI

  1. Filtrar por tipo de GPU, VRAM y precio

  2. Elegir Bajo demanda (tarifa fija) o Spot (precio de oferta)

  3. Configura tu pedido:

    • Selecciona la imagen de Docker

    • Configura los puertos (TCP para SSH, HTTP para interfaces web)

    • Agrega variables de entorno si es necesario

    • Introduce el comando de inicio

  4. Selecciona el pago: CLORE, BTC, o USDT/USDC

  5. Crea el pedido y espera el despliegue

Accede a tu servidor

  • Encuentra los detalles de conexión en Mis Pedidos

  • Interfaces web: Usa la URL del puerto HTTP

  • SSH: ssh -p <port> root@<proxy-address>

¿Qué es SadTalker?

SadTalker genera videos parlantes:

  • Sincronización labial desde cualquier audio

  • Movimientos naturales de la cabeza

  • Funciona con una sola imagen

  • Control de expresión

Requisitos

Modo
VRAM
Recomendado

Básico

4GB

RTX 3060

Alta calidad

6GB

RTX 3080

Cara completa

8GB

RTX 4080

Despliegue rápido

Imagen de Docker:

Puertos:

Comando:

Accediendo a tu servicio

Después del despliegue, encuentra tu http_pub URL en Mis Pedidos:

  1. Ir a Mis Pedidos página

  2. Haz clic en tu pedido

  3. Encuentra la http_pub URL (por ejemplo, abc123.clorecloud.net)

Usa https://YOUR_HTTP_PUB_URL en lugar de localhost en los ejemplos a continuación.

Instalación

Uso básico

Línea de comandos

API de Python

Con mejora de rostro

Parámetros

Estilos de pose

Rango
Efecto

0-5

Movimientos sutiles

6-20

Movimientos normales

21-46

Movimientos expresivos

Procesamiento por lotes

Interfaz Gradio

Servidor API

Texto a voz + SadTalker

Canal completo:

Control de expresión

Ajustes de calidad

Ajuste
Velocidad
Calidad

Sin enhancer, 256px

Rápido

Básico

GFPGAN, 256px

Medio

Bueno

GFPGAN, 512px

Lento

Mejor

RealESRGAN, 512px

El más lento

Mejor

Opciones de preprocesamiento

Solución de problemas

Rostro no detectado

  • Usa una imagen clara y frontal del rostro

  • Buena iluminación

  • Evita oclusiones (gafas, pelo)

Problemas de sincronización de audio

  • Usa archivos WAV a 16 kHz

  • Evita música de fondo

  • Solo habla clara

Movimiento entrecortado

  • Aumenta ligeramente expression_scale

  • Prueba un pose_style diferente

  • Usa audio más largo

Memoria insuficiente

  • Reduce el tamaño de salida

  • Desactiva el enhancer

  • Usa el preprocesamiento crop

Rendimiento

Resolución
GPU
Tiempo (video de 10 s)

256px

RTX 3060

~30s

256px

RTX 4090

~15s

512px + GFPGAN

RTX 4090

~45s

Estimación de costos

Tarifas típicas del marketplace de CLORE.AI (a fecha de 2024):

GPU
Tarifa por hora
Tarifa diaria
Sesión de 4 horas

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Los precios varían según el proveedor y la demanda. Consulta CLORE.AI Marketplacearrow-up-right para tarifas actuales.

Ahorra dinero:

  • Usa Spot mercado para cargas de trabajo flexibles (a menudo 30-50% más barato)

  • Paga con CLORE tokens

  • Compara precios entre distintos proveedores

Próximos pasos

  • Wav2Lip - Sincronización labial alternativa

  • Bark TTS - Generar voz

  • XTTS - Clonación de voz + TTS

Última actualización

¿Te fue útil?