Argus Inspection: Do Multimodal Large Language Models Possess the Eye of Panoptes?
Created by
Haebom
作者
Yang Yao, Lingyu Li, Jiaxin Song, Chiyu Chen, Zhenqi He, Yixu Wang, Xin Wang, Tianle Gu, Jie Li, Yan Teng, Yingchun Wang
概要
本論文は,多モーダル大規模言語モデル(MLLM)の視覚的詳細認識と常識的過推論能力の限界を扱う。詳細な視覚認識と実際の世界常識的理解を統合することで、因果推論能力を評価する2つの難易度のマルチモーダルベンチマークであるArgus Inspectionを提示します。また、フィードバックベースの推論課題でMLLMの応答をより包括的に評価できるように、バイナリパラメータシグモイドメトリックと指標関数を統合したEye of Panoptesフレームワークを提示します。 26の主要MLLMの実験結果は、視覚的詳細認識の推論では、最高のパフォーマンスはわずか0.46で、改善の余地があることを示しています。
Takeaways、Limitations
•
Takeaways:
◦
MLLMの視覚的詳細認識と常識的因果推論能力の評価のための新しいベンチマーク(Argus Inspection)と評価フレームワーク(Eye of Panoptes)の提示。