Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MMMR: Benchmarking Massive Multi-Modal Reasoning Tasks

Created by
  • Haebom

저자

Guiyao Tie, Xueyang Zhou, Tianhe Gu, Ruihang Zhang, Chaoran Hu, Sizhe Zhang, Mengqu Sun, Yan Zhang, Pan Zhou, Lichao Sun

개요

본 논문은 다중 모달 대규모 언어 모델(MLLMs), 특히 중간 추론 과정을 포함하는 MLLMs-T의 추론 능력을 평가하기 위한 새로운 벤치마크인 MMMR을 제시합니다. MMMR은 6가지 다양한 추론 유형을 포함하는 1,083개의 고난도 질문으로 구성된 데이터셋과 추론 과정의 질을 정확도를 넘어 관련성, 일관성, 구조적 오류 주석과 같은 지표를 통해 평가하는 모듈식 추론 과정 평가 파이프라인(RTEP)으로 이루어져 있습니다. 실험 결과, MLLMs-T가 추론 과정을 포함하지 않는 모델보다 성능이 우수하지만, Claude-3.7-Sonnet 및 Gemini-2.5 Pro와 같은 최고 수준의 모델조차도 불일치 및 과도한 추론과 같은 추론 병리 현상을 보이는 것으로 나타났습니다. MMMR은 정확도와 추론 질 사이의 격차를 보여주고, 향후 모델 개발을 위한 실행 가능한 평가 파이프라인을 제공합니다.

시사점, 한계점

시사점:
다중 모달 추론 능력 평가를 위한 새로운 벤치마크 MMMR 제시.
MLLMs-T의 추론 과정 평가를 위한 모듈식 RTEP 제공.
정확도뿐 아니라 추론 과정의 질(관련성, 일관성 등)을 평가하는 새로운 관점 제시.
최첨단 MLLMs-T 모델의 추론 병리 현상(불일치, 과도한 추론 등)을 밝힘.
향후 다중 모달 추론 시스템의 발전을 위한 기반 마련.
한계점:
MMMR 데이터셋의 규모(1,083개 질문)가 충분하지 않을 수 있음.
현재 평가 지표 및 RTEP의 한계로 인해 추론 과정의 모든 측면을 포괄적으로 평가하지 못할 수 있음.
특정 유형의 추론에 편향되어 있을 가능성 존재.
👍