Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Text2Lip : Génération progressive de visages parlants synchronisés avec les lèvres à partir de texte via un rendu guidé par Viseme

Created by
  • Haebom

Auteur

Xu Wang, Shengeng Tang, Fei Wang, Lechao Cheng, Dan Guo, Feng Xue, Richang Hong

Contour

Cet article propose un nouveau cadre, Text2Lip. Text2Lip intègre des entrées textuelles dans des séquences de visèmes structurées afin de réduire la dépendance aux données audiovisuelles appariées de haute qualité et de résoudre l'ambiguïté de l'acoustique et de la cartographie des mouvements labiaux. Cette intégration fournit des informations préalables linguistiquement informées, améliorant ainsi la précision de la prédiction des mouvements labiaux. De plus, une stratégie de substitution progressive visème-audio, basée sur le programme scolaire, transforme progressivement l'audio réel en pseudo-audio reconstruit à l'aide des caractéristiques des visèmes, permettant une génération robuste, quelle que soit la présence d'audio. Enfin, un moteur de rendu basé sur des points de repère est utilisé pour synthétiser des vidéos faciales réalistes avec une synchronisation labiale précise. Les résultats expérimentaux démontrent que Text2Lip surpasse les méthodes existantes en termes de précision sémantique, de réalisme visuel et de robustesse modale.

Takeaways, Limitations

Takeaways:
Réduire la dépendance aux données audiovisuelles de haute qualité et résoudre les problèmes d'ambiguïté de la cartographie des mouvements acoustiques des lèvres.
Améliorer la prédiction des mouvements des lèvres informée linguistiquement grâce à une approche basée sur le visème.
Génération de façade de haut-parleur robuste quelle que soit la présence audio.
Amélioration de la précision sémantique, de la fidélité visuelle et de la robustesse modale.
Un nouveau paradigme pour la génération de visages de haut-parleurs contrôlables et flexibles est présenté.
Limitations:
Cet article ne mentionne pas explicitement Limitations. Des expériences ou analyses supplémentaires pourraient être nécessaires pour élucider ces aspects (par exemple, performance sur texte dans des langues ou des styles spécifiques, généralisation à divers traits du visage, etc.).
👍