MV-MATH는 실제 K-12 수학 문제 상황에서 발췌한 2,009개의 고품질 다중 시각적 수학 문제 데이터셋입니다. 기존의 단일 시각적 수학 벤치마크의 한계를 극복하고자, 텍스트와 여러 이미지가 결합된 다양한 유형(객관식, 서술형, 다단계)의 문제를 11개의 과목 영역과 3가지 난이도로 제공합니다. 이를 통해 다중 시각적 맥락에서 다중 모달 대규모 언어 모델(MLLM)의 수학적 추론 능력을 종합적이고 엄격하게 평가할 수 있는 벤치마크를 제시합니다. 실험 결과, MLLM은 다중 시각적 수학 문제에서 인간의 능력과 상당한 성능 차이를 보이며 어려움을 겪는다는 것을 확인했습니다. 또한 다양한 모델의 성능과 오류 패턴을 분석하여 다중 시각적 환경에서 MLLM의 수학적 추론 능력에 대한 통찰력을 제공합니다.