Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Les modèles de langage visuel peuvent-ils comprendre les actions mimées ?
Created by
Haebom
Auteur
Hyundong Cho, Spencer Lin, Tejas Srinivasan, Michael Saxon, Deuksin Kwon, Natali T. Chavez, Jonathan May
Contour
Cet article se concentre sur le mime, un sous-ensemble de la communication non verbale (CNV), et propose MIME, une nouvelle mesure d'évaluation pour améliorer la compréhension CNV des modèles de langage visuel. MIME est un test de questions-réponses vidéo qui inclut 86 mouvements de mime. Il évalue la robustesse des modèles en ajoutant diverses transformations et bruits basés sur des données de capture de mouvement. Les résultats expérimentaux montrent que les modèles de langage visuel existants sont nettement moins performants que les humains en MIME, ce qui suggère la nécessité de modèles dotés de capacités de compréhension des gestes humains plus robustes.
Takeaways, Limitations
•
Takeaways:
◦
Présentation d'une nouvelle norme pour évaluer la compréhension de la communication non verbale à l'aide du mime (MIME).
◦
Démontre clairement le manque de compréhension de la communication non verbale dans les modèles visuo-verbaux existants et suggère des orientations de recherche futures.
◦
ÉValuer la robustesse des modèles, incluant diverses déformations et bruits, en se basant sur des données de capture de mouvement.
•
Limitations:
◦
MIME est un benchmark spécifique à MIME, qui peut avoir des limites dans la compréhension générale du NVC.
◦
Il est basé sur des données de capture de mouvement et peut ne pas refléter parfaitement diverses situations de CNV dans le monde réel.
◦
Les types de modèles de langage visuel utilisés pour évaluer les performances du modèle actuel et leurs chiffres de performances spécifiques ne sont pas fournis, ce qui peut rendre la généralisation difficile.