Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

3DFacePolicy : Animation faciale 3D pilotée par l'audio et basée sur le contrôle des actions

Created by
  • Haebom

Auteur

Xuanmeng Sha, Liyun Zhang, Tomohiro Mashita, Naoya Chiba, Yuki Uranishi

Contour

Afin de surmonter les limites des méthodes existantes de génération de vertex image par image dans l'animation faciale 3D audio, cet article propose 3DFacePolicy, qui introduit le concept d'« action ». Nous définissons une action comme le changement de trajectoire d'un vertex entre deux images consécutives, et prédisons la séquence d'action de chaque vertex grâce à un mécanisme de contrôle robotique basé sur une politique de diffusion conditionnée par l'audio et les états des vertex. Cela reconfigure la méthode de génération de vertex avec un paradigme de contrôle basé sur l'action, permettant la génération de mouvements faciaux plus naturels et continus. Les résultats expérimentaux sur les jeux de données VOCASET et BIWI démontrent que notre approche surpasse les méthodes de pointe existantes et est particulièrement efficace pour l'animation faciale dynamique, expressive et naturelle.

Takeaways, Limitations

Takeaways:
Une nouvelle approche pour générer des mouvements naturels et continus dans l’animation faciale 3D basée sur l’audio.
Surmonter les limites des méthodes de contrôle conventionnelles basées sur les cadres grâce à un paradigme de contrôle basé sur l'action.
Utilisation efficace des mécanismes de contrôle des robots basés sur la politique de diffusion
Atteindre des performances de pointe sur les ensembles de données VOCASET et BIWI
Démontrer la faisabilité de générer des animations faciales dynamiques et expressives.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la méthode proposée.
Des évaluations de robustesse sur une variété de types audio et de caractéristiques faciales sont nécessaires.
Subjectivité et potentiel d'amélioration des définitions de l'action
Une analyse des coûts et de l’efficacité du calcul est nécessaire.
👍