Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MMMR: Benchmarking Massive Multi-Modal Reasoning Tasks

Created by
  • Haebom

저자

Guiyao Tie, Xueyang Zhou, Tianhe Gu, Ruihang Zhang, Chaoran Hu, Sizhe Zhang, Mengqu Sun, Yan Zhang, Pan Zhou, Lichao Sun

개요

본 논문은 다중 모달 대규모 언어 모델(MLLMs), 특히 중간 추론 과정(thinking traces)을 활용하는 MLLMs-T의 추론 능력을 평가하기 위한 새로운 벤치마크인 MMMR을 제안합니다. MMMR은 6가지 다양한 추론 유형을 포함하는 1,083개의 고난이도 질문으로 구성된 데이터셋과 추론 과정의 질적 평가를 위한 모듈식 추론 추적 평가 파이프라인(RTEP)으로 이루어져 있습니다. RTEP는 정확도뿐 아니라 관련성, 일관성, 구조적 오류 주석 등을 통해 추론의 질을 평가합니다. 실험 결과, MLLMs-T가 추론 과정 없이 답하는 모델보다 성능이 우수하지만, Claude-3.7-Sonnet 및 Gemini-2.5 Pro와 같은 최첨단 모델조차도 불일치 및 과도한 추론과 같은 문제를 보이는 것으로 나타났습니다. 따라서 MMMR은 정확도와 추론 질 사이의 격차를 보여주고, 향후 모델 개발을 위한 실행 가능한 평가 파이프라인을 제공합니다.

시사점, 한계점

시사점:
다중 모달 추론 능력 평가를 위한 새로운 벤치마크(MMMR) 제시
추론 과정의 질적 평가를 위한 모듈식 평가 파이프라인(RTEP) 개발
최첨단 MLLMs-T 모델의 추론 능력 및 한계점 규명 (정확도와 추론 질 사이의 격차 존재)
향후 다중 모달 추론 시스템 개발을 위한 발전 방향 제시
한계점:
현재 벤치마크의 규모(1,083개 질문)가 향후 더욱 다양하고 방대한 데이터셋으로 확장될 필요가 있음.
평가 지표 및 평가 파이프라인의 지속적인 개선 및 발전 필요.
MMMR 벤치마크가 특정 유형의 추론 문제에 편향될 가능성 존재.
다양한 MLLM 아키텍처 및 훈련 방법에 대한 포괄적인 평가가 부족할 수 있음.
👍