Guiyao Tie, Xueyang Zhou, Tianhe Gu, Ruihang Zhang, Chaoran Hu, Sizhe Zhang, Mengqu Sun, Yan Zhang, Pan Zhou, Lichao Sun
개요
본 논문은 다중 모달 대규모 언어 모델(MLLMs), 특히 중간 추론 과정을 포함하는 MLLMs-T의 추론 능력을 평가하기 위한 새로운 벤치마크인 MMMR을 제시합니다. MMMR은 다양한 추론 유형을 포함하는 1,083개의 고난도 질문과 추론 과정의 질을 평가하는 모듈식 추론 과정 평가 파이프라인(RTEP)으로 구성됩니다. RTEP는 정확도뿐 아니라 관련성, 일관성 등을 평가하여 모델의 추론 과정을 분석합니다. 실험 결과, MLLMs-T가 일반 MLLMs보다 성능이 우수하지만, 최첨단 모델들조차도 일관성 부족이나 과도한 추론 등의 문제점을 보이는 것으로 나타났습니다. MMMR은 다중 모달 추론 시스템의 향후 발전을 위한 평가 및 비교 기반을 제공합니다.
시사점, 한계점
•
시사점:
◦
다중 모달 추론 능력 평가를 위한 새로운 벤치마크 MMMR 제시
◦
추론 과정의 질적 평가를 위한 RTEP 파이프라인 제안
◦
최첨단 MLLMs-T 모델의 추론 과정 분석 및 문제점 도출 (일관성 부족, 과도한 추론 등)