Sign In

MV-MATH: Evaluating Multimodal Math Reasoning in Multi-Visual Contexts

Created by
  • Haebom
Category
Empty

저자

Peijie Wang, Zhongzhi Li, Fei Yin, Dekang Ran, Chenglin Liu

개요

MV-MATH는 실제 K-12 수학 문제 상황에서 발췌한 2,009개의 고품질 다중 시각적 수학 문제 데이터셋입니다. 기존의 단일 시각적 수학 벤치마크의 한계를 극복하고자, 텍스트와 여러 이미지가 결합된 다양한 유형(객관식, 서술형, 다단계)의 문제를 11개의 과목 영역과 3가지 난이도로 제공합니다. 이를 통해 다중 시각적 맥락에서 다중 모달 대규모 언어 모델(MLLM)의 수학적 추론 능력을 종합적이고 엄격하게 평가할 수 있는 벤치마크를 제시합니다. 실험 결과, MLLM은 다중 시각적 수학 문제에서 인간의 능력과 상당한 성능 차이를 보이며 어려움을 겪는다는 것을 확인했습니다. 또한 다양한 모델의 성능과 오류 패턴을 분석하여 다중 시각적 환경에서 MLLM의 수학적 추론 능력에 대한 통찰력을 제공합니다.

시사점, 한계점

시사점:
다중 시각적 맥락에서 MLLM의 수학적 추론 능력 평가를 위한 새로운 벤치마크 MV-MATH 제시.
MLLM이 다중 시각적 수학 문제 해결에 어려움을 겪는다는 사실을 실험적으로 입증.
MLLM의 성능 및 오류 패턴 분석을 통한 향후 연구 방향 제시.
한계점:
데이터셋의 크기가 상대적으로 작을 수 있음 (2,009개).
K-12 수학 문제에 국한되어 실제 세계의 모든 수학적 문제를 포괄하지 못할 수 있음.
다양한 MLLM 모델에 대한 비교 분석이 더욱 심도 있게 진행될 필요가 있음.
👍