[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Réfléchir avant de dessiner : décomposition de la sémantique des émotions et génération précise et contrôlable de têtes parlantes expressives

Created by
  • Haebom

Auteur

Hanlei Shi, Leyuan Qu, Yu Liu, Di Gao, Yuhua Zheng, Taihao Li

Contour

Dans cet article, nous soulignons les lacunes des méthodes existantes en matière de génération de têtes parlantes émotionnelles à partir de textes et proposons un nouveau cadre, Think-Before-Draw, pour les surmonter. Think-Before-Draw s'appuie sur la chaîne de pensée (CoT) pour transformer les étiquettes émotionnelles abstraites en descriptions physiologiques des mouvements des muscles faciaux, et améliore la dynamique des micro-expressions grâce à une stratégie de débruitage progressivement guidée avec un mécanisme de « localisation globale des émotions – contrôle musculaire local » pour obtenir des expressions émotionnelles naturelles. Nous obtenons des performances de pointe sur les benchmarks MEAD et HDTF, et présentons également un nouveau jeu de données d'images de portraits pour évaluer sa capacité de génération « zero shot ».

Takeaways, Limitations_

Takeaways:
Nous améliorons le caractère naturel de la génération de têtes parlantes émotionnelles basées sur du texte grâce à une analyse sémantique approfondie des émotions à l'aide de la chaîne de pensée (CoT).
La stratégie de suppression progressive du bruit de guidage et le mécanisme de « localisation globale des émotions - contrôle musculaire local » permettent un contrôle sophistiqué des micro-expressions.
Nous démontrons la supériorité de la méthode proposée en obtenant des performances de pointe sur les benchmarks MEAD et HDTF.
Nous fournissons un nouvel ensemble de données pour évaluer les capacités de génération zero-shot.
Limitations:
Il manque des informations spécifiques sur la taille et la diversité du nouvel ensemble de données présenté.
Une analyse quantitative plus poussée est nécessaire pour déterminer dans quelle mesure l’utilisation du CoT contribue à améliorer le caractère naturel de l’expression émotionnelle.
Des analyses plus approfondies sont nécessaires pour déterminer dans quelle mesure ce modèle capture une gamme d’expressions émotionnelles et de caractéristiques individuelles.
Il existe un manque d’évaluation quantitative des différences par rapport aux expressions émotionnelles humaines réelles.
👍