SadTalker

Créez des vidéos de têtes parlantes à partir d'audio et d'images sur Clore.ai

Animez des visages avec de l'audio pour créer des vidéos de tête parlante réalistes.

circle-check

Location sur CLORE.AI

  1. Filtrer par type de GPU, VRAM et prix

  2. Choisir À la demande (tarif fixe) ou Spot (prix d'enchère)

  3. Configurez votre commande :

    • Sélectionner l'image Docker

    • Définir les ports (TCP pour SSH, HTTP pour les interfaces web)

    • Ajouter des variables d'environnement si nécessaire

    • Entrer la commande de démarrage

  4. Sélectionner le paiement : CLORE, BTC, ou USDT/USDC

  5. Créer la commande et attendre le déploiement

Accéder à votre serveur

  • Trouvez les détails de connexion dans Mes commandes

  • Interfaces web : utilisez l'URL du port HTTP

  • SSH : ssh -p <port> root@<adresse-proxy>

Qu'est-ce que SadTalker ?

SadTalker génère des vidéos parlantes :

  • Synchronisation labiale à partir de n'importe quel audio

  • Mouvements naturels de la tête

  • Fonctionne avec une seule image

  • Contrôle de l'expression

Exigences

Mode
VRAM
Recommandé

Basique

4 Go

RTX 3060

Haute qualité

6 Go

RTX 3080

Visage complet

8 Go

RTX 4080

Déploiement rapide

Image Docker :

Ports :

Commande :

Accéder à votre service

Après le déploiement, trouvez votre http_pub URL dans Mes commandes:

  1. Aller à Mes commandes page

  2. Cliquez sur votre commande

  3. Trouvez l' http_pub URL (par ex., abc123.clorecloud.net)

Utilisez https://VOTRE_HTTP_PUB_URL au lieu de localhost dans les exemples ci-dessous.

Installation

Utilisation de base

Ligne de commande

API Python

Avec amélioration du visage

Paramètres

Styles de pose

Plage
Effet

0-5

Mouvements subtils

6-20

Mouvements normaux

21-46

Mouvements expressifs

Traitement par lot

Interface Gradio

Serveur API

Text-to-Speech + SadTalker

Pipeline complet :

Contrôle de l'expression

Paramètres de qualité

Paramètre
Vitesse
Qualité

Pas d'améliorateur, 256px

Rapide

Basique

GFPGAN, 256px

Moyen

Bon

GFPGAN, 512px

Lent

Meilleur

RealESRGAN, 512px

Le plus lent

Meilleur

Options de prétraitement

Dépannage

Visage non détecté

  • Utilisez une image de visage nette et frontale

  • Bonne éclairage

  • Évitez les occlusions (lunettes, cheveux)

Problèmes de synchronisation audio

  • Utilisez des fichiers WAV à 16 kHz

  • Évitez la musique de fond

  • Parole claire uniquement

Mouvement saccadé

  • Augmentez légèrement expression_scale

  • Essayez un pose_style différent

  • Utilisez un audio plus long

Mémoire insuffisante

  • Réduisez la taille de sortie

  • Désactivez l'améliorateur

  • Utilisez le prétraitement crop

Performances

Résolution
GPU
Temps (vidéo de 10s)

256px

RTX 3060

~30s

256px

RTX 4090

~15s

512px + GFPGAN

RTX 4090

~45s

Estimation des coûts

Tarifs typiques du marché CLORE.AI (à partir de 2024) :

GPU
Tarif horaire
Tarif journalier
Session de 4 heures

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Les prix varient selon le fournisseur et la demande. Vérifiez Place de marché CLORE.AIarrow-up-right pour les tarifs actuels.

Économisez de l'argent :

  • Utilisez Spot market pour les charges de travail flexibles (souvent 30-50% moins cher)

  • Payer avec CLORE tokens

  • Comparer les prix entre différents fournisseurs

Étapes suivantes

  • Wav2Lip - Synchronisation labiale alternative

  • Bark TTS - Générer la parole

  • XTTS - Clonage de voix + TTS

Mis à jour

Ce contenu vous a-t-il été utile ?