Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Annotation des émotions à zéro plan dans les images faciales à l'aide de grands modèles multimodaux : analyse comparative et perspectives pour les approches multi-classes et multi-images

Created by
  • Haebom

Auteur

He Zhang, Xinyi Fu

Contour

Cette étude a examiné la faisabilité et les performances de l'annotation automatique des émotions humaines dans des scénarios quotidiens à l'aide de modèles multimodaux à grande échelle (MML). Nous avons mené des expériences sur le sous-ensemble « DailyLife » de la base de données publique FERV39k, en utilisant le modèle GPT-4o-mini pour l'étiquetage rapide et sans plan des images clés extraites de segments vidéo. Avec sept schémas de classification des émotions (« colère », « dégoût », « peur », « joie », « neutre », « tristesse » et « surprise »), les MML ont atteint une précision moyenne d'environ 50 %. Cependant, lorsqu'ils étaient limités à trois classifications d'émotions (négatif/neutre/positif), la précision moyenne atteignait environ 64 %. De plus, nous avons exploré une stratégie de fusion de plusieurs images au sein de clips vidéo de 1 à 2 secondes afin d'améliorer les performances d'étiquetage et de réduire les coûts. Les résultats indiquent que cette approche peut légèrement améliorer la précision des annotations. Dans l’ensemble, nos résultats préliminaires mettent en évidence le potentiel des LMM à tir nul pour les tâches d’annotation des émotions faciales humaines, offrant une nouvelle approche pour réduire les coûts d’étiquetage et élargir l’applicabilité des LMM dans des environnements multimodaux complexes.

Takeaways, Limitations

Takeaways:
Nous présentons la possibilité d'annotation automatique des émotions humaines à l'aide du LMM à tir nul.
La classification ternaire (négatif/neutre/positif) a montré une précision plus élevée que la classification à 7 terminaux.
Nous démontrons le potentiel d’amélioration de la précision et de l’efficacité des annotations grâce à une stratégie d’intégration multi-images.
Suggérant la possibilité de réduire les coûts et d’élargir le champ d’application de l’analyse des sentiments basée sur LMM.
Limitations:
Précision moyenne relativement faible d'environ 50 % (basée sur la classification heptadique)
Les résultats concernent un ensemble de données spécifique (le sous-ensemble DailyLife de FERV39k) et des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité.
L’amélioration des performances de la stratégie d’intégration multi-trames est minime.
Dégradation possible des performances en raison des limitations du modèle GPT-4o-mini.
Des recherches supplémentaires sont nécessaires sur des ensembles de données et des modèles plus diversifiés et plus étendus.
👍