Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Apprentissage du visème phonétique dépendant du contexte pour améliorer l'animation faciale 3D pilotée par la parole

Created by
  • Haebom

Auteur

Hyung Kyu Kim, Hak Gu Kim

Contour

Cet article vise à générer des mouvements faciaux réalistes et synchronisés avec la parole pour une animation faciale 3D naturelle et pilotée par la parole. Les méthodes existantes se sont concentrées sur la minimisation des pertes de reconstruction en alignant chaque image sur les données de référence. Cependant, ces approches image par image produisent souvent des résultats instables et artificiels en raison de la coopération articulatoire, ce qui perturbe la continuité des mouvements faciaux. Pour remédier à ce problème, nous proposons une nouvelle fonction de perte contextuelle qui modélise explicitement l'impact du contexte phonétique sur les transitions phonémiques. En intégrant des pondérations de coopération phonème-articulatoire, nous attribuons de manière adaptative l'importance aux mouvements faciaux en fonction de leurs variations dynamiques au fil du temps, garantissant ainsi une animation plus fluide et plus cohérente sur le plan perceptuel. Des expériences approfondies démontrent que le remplacement des pertes de reconstruction conventionnelles par la fonction de perte proposée améliore à la fois les mesures quantitatives et la qualité visuelle. Cela souligne l'importance de la modélisation explicite des phonèmes, qui dépendent du contexte phonétique, pour synthétiser une animation faciale 3D naturelle pilotée par la parole.

Takeaways, Limitations

Takeaways:
Nous démontrons qu’une fonction de perte sensible au contexte peut améliorer le naturel et la continuité de l’animation faciale 3D basée sur la parole.
Nous proposons que les changements dynamiques dans les mouvements du visage au fil du temps peuvent être efficacement reflétés en utilisant des poids de co-action d'articulation des phonèmes.
Nous vérifions expérimentalement la supériorité de la méthode proposée grâce à des mesures quantitatives et à une amélioration de la qualité visuelle.
Nous soulignons l’importance de la modélisation du contexte vocal dans la recherche sur l’animation faciale 3D basée sur la parole.
Limitations:
Des recherches supplémentaires sont nécessaires pour évaluer les performances de généralisation de la méthode proposée.
Il est nécessaire d’évaluer la robustesse d’une variété de caractéristiques vocales et faciales.
Une analyse plus approfondie est nécessaire sur son applicabilité et ses limites dans les environnements réels.
👍