Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MMMR: Benchmarking Massive Multi-Modal Reasoning Tasks

Created by
  • Haebom

저자

Guiyao Tie, Xueyang Zhou, Tianhe Gu, Ruihang Zhang, Chaoran Hu, Sizhe Zhang, Mengqu Sun, Yan Zhang, Pan Zhou, Lichao Sun

개요

본 논문은 다중 모달 대규모 언어 모델(MLLMs), 특히 중간 추론 과정을 포함하는 MLLMs-T의 추론 능력을 평가하기 위한 새로운 벤치마크인 MMMR을 제시합니다. MMMR은 다양한 추론 유형을 포함하는 1,083개의 고난도 질문과 추론 과정의 질을 평가하는 모듈식 추론 과정 평가 파이프라인(RTEP)으로 구성됩니다. RTEP는 정확도뿐 아니라 관련성, 일관성 등을 평가하여 모델의 추론 과정을 분석합니다. 실험 결과, MLLMs-T가 일반 MLLMs보다 성능이 우수하지만, 최첨단 모델들조차도 일관성 부족이나 과도한 추론 등의 문제점을 보이는 것으로 나타났습니다. MMMR은 다중 모달 추론 시스템의 향후 발전을 위한 평가 및 비교 기반을 제공합니다.

시사점, 한계점

시사점:
다중 모달 추론 능력 평가를 위한 새로운 벤치마크 MMMR 제시
추론 과정의 질적 평가를 위한 RTEP 파이프라인 제안
최첨단 MLLMs-T 모델의 추론 과정 분석 및 문제점 도출 (일관성 부족, 과도한 추론 등)
정확도와 추론 질 사이의 격차를 보여줌으로써 향후 모델 개발 방향 제시
한계점:
현재 벤치마크의 규모 (1,083개 질문)가 향후 더욱 확장될 필요가 있음.
MMMR이 다루는 추론 유형의 다양성에 대한 추가적인 검토가 필요할 수 있음.
RTEP의 평가 지표 및 오류 유형 분류의 객관성 및 신뢰성에 대한 추가 연구가 필요함.
👍