MV-MATH는 실제 K-12 수학 문제 상황에서 자주 발생하는 다중 시각적 맥락을 반영하여 2,009개의 고품질 수학 문제로 구성된 새로운 데이터셋입니다. 기존의 단일 시각적 맥락에 국한된 다중 모달 대규모 언어 모델(MLLM)의 수학적 추론 평가의 한계를 극복하기 위해 고안되었으며, 텍스트와 여러 이미지가 결합된 다양한 유형(객관식, 서술형, 다단계)의 문제를 포함합니다. 11개의 수학 과목 영역과 3가지 난이도로 구성되어 있으며, MLLM의 다중 시각적 맥락에서의 수학적 추론 능력을 종합적이고 엄격하게 평가하는 벤치마크 역할을 합니다. 실험 결과, MLLM은 다중 시각적 수학 문제에서 상당한 어려움을 겪으며, 인간의 능력과 비교하여 성능 차이가 크다는 것을 보여줍니다. 본 논문에서는 다양한 모델의 성능과 오류 패턴을 분석하여 다중 시각적 환경에서 MLLM의 수학적 추론 능력에 대한 통찰력을 제공합니다.