MV-MATH는 기존의 단일 시각적 맥락에 국한된 수학 벤치마크의 한계를 극복하기 위해 고안된 새로운 다중 시각적 수학 문제 데이터셋입니다. K-12 교육 과정의 실제 시나리오에서 추출한 2,009개의 고품질 수학 문제를 포함하며, 각 문제는 텍스트와 여러 이미지가 혼합되어 구성됩니다. 다지선다형, 자유 답변형, 다단계 문제를 포함하며 11개의 과목 영역과 3개의 난이도 수준으로 구성되어 있습니다. 본 논문에서는 MV-MATH를 사용하여 다중 시각적 맥락에서 MLLM(다중 모달 대규모 언어 모델)의 수학적 추론 능력을 평가하고, MLLM이 다중 시각적 수학 문제에서 상당한 어려움을 겪으며 인간의 능력과 큰 성능 차이를 보임을 실험적으로 확인합니다. 또한 다양한 모델의 성능 및 오류 패턴을 분석하여 다중 시각적 환경에서 MLLM의 수학적 추론 능력에 대한 통찰력을 제공합니다.