MME-Reasoning: A Comprehensive Benchmark for Logical Reasoning in MLLMs
Created by
Haebom
저자
Jiakang Yuan, Tianshuo Peng, Yilei Jiang, Yiting Lu, Renrui Zhang, Kaituo Feng, Chaoyou Fu, Tao Chen, Lei Bai, Bo Zhang, Xiangyu Yue
개요
본 논문은 다중 모달 대규모 언어 모델(MLLMs)의 추론 능력을 종합적으로 평가하기 위한 새로운 벤치마크인 MME-Reasoning을 제시합니다. 기존 벤치마크의 한계점인 추론 유형의 명확한 분류 부재와 추론에 대한 불명확한 이해를 해결하기 위해, MME-Reasoning은 귀납적, 연역적, 그리고 아뷸덕티브 추론 등 세 가지 유형의 추론을 모두 포함하는 질문들을 통해 MLLMs의 추론 능력을 평가합니다. 각 질문은 지각 능력이나 지식 폭이 아닌 추론 능력을 효과적으로 평가하도록 주의 깊게 구성되었으며, 다양한 질문에 대한 평가 프로토콜을 확장했습니다. 평가 결과, 최첨단 MLLMs는 종합적인 논리적 추론 능력 평가에서 상당한 한계를 보이며, 추론 유형 간 성능 불균형 또한 두드러짐을 보여줍니다. 추가적으로, '사고 모드'와 규칙 기반 강화 학습과 같은 추론 능력 향상에 도움이 된다고 여겨지는 접근 방식에 대한 심층 분석을 수행했습니다.
시사점, 한계점
•
시사점: 다양한 논리적 추론 시나리오에서 현재 MLLMs의 중요한 한계와 성능 불균형을 강조하여 추론 능력의 이해와 평가에 대한 포괄적이고 체계적인 통찰력을 제공합니다. MME-Reasoning 벤치마크는 MLLMs의 추론 능력을 더욱 정확하고 종합적으로 평가하는 데 기여합니다. '사고 모드'나 규칙 기반 강화 학습과 같은 기존의 접근 방식의 효과에 대한 심층적인 분석 결과를 제공합니다.
•
한계점: MME-Reasoning 벤치마크 자체의 한계점이나, 특정 유형의 추론에 대한 과소 또는 과대 대표 등에 대한 논의가 부족할 수 있습니다. 또한, 분석된 '사고 모드'나 규칙 기반 강화 학습 외 다른 추론 향상 기법에 대한 고려가 부족할 수 있습니다. 다양한 추론 유형에 대한 성능 불균형의 근본 원인에 대한 깊이 있는 분석이 추가적으로 필요할 수 있습니다.