Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Inspection Argus : les grands modèles linguistiques multimodaux possèdent-ils l'œil de Panoptes ?

Created by
  • Haebom

Auteur

Yang Yao, Lingyu Li, Jiaxin Song, Chiyu Chen, Zhenqi He, Yixu Wang, Xin Wang, Tianle Gu, Jie Li, Yan Teng, Yingchun Wang

Contour

Cet article aborde les limites des modèles linguistiques multimodaux à grande échelle (MLLM) quant à leur capacité à percevoir les détails visuels et à effectuer des inférences causales de bon sens. Nous présentons Argus Inspection, un benchmark multimodal à deux niveaux exigeants qui intègre la perception visuelle détaillée et la compréhension du bon sens du monde réel pour évaluer les capacités d'inférence causale. De plus, nous présentons le cadre Eye of Panoptes, qui intègre une métrique sigmoïde à paramètres binaires et des fonctions indicatrices pour permettre une évaluation plus complète des réponses des MLLM dans les tâches de raisonnement basé sur l'opinion. Les résultats expérimentaux sur 26 MLLM de premier plan montrent que la meilleure performance en inférence visuelle sensible aux détails n'est que de 0,46, ce qui indique une marge de progression significative.

Takeaways, Limitations_

Takeaways:
Nous présentons un nouveau référentiel (Argus Inspection) et un cadre d'évaluation (Eye of Panoptes) pour évaluer les capacités de reconnaissance des détails visuels et d'inférence causale de bon sens de MLLM.
Présentation du niveau actuel de capacité de reconnaissance des détails visuels de MLLM et du besoin d'amélioration.
Proposer une méthode d’évaluation plus complète pour les tâches de raisonnement basé sur l’opinion.
Limitations:
Un examen plus approfondi du niveau de difficulté et de la généralisabilité du benchmark Argus Inspection est nécessaire.
Des recherches supplémentaires sont nécessaires sur l’optimisation des métriques sigmoïdes et des fonctions indicatrices dans le cadre de l’Œil de Panoptes.
Des recherches supplémentaires sont nécessaires pour garantir la diversité des MLLM évalués.
👍