MV-MATH는 다중 시각적 맥락에서 수학적 추론 능력을 평가하기 위한 새로운 벤치마크 데이터셋입니다. 기존의 단일 시각적 맥락에 국한된 수학 벤치마크의 한계를 극복하고자, 실제 K-12 환경에서 발췌한 텍스트와 여러 이미지를 포함하는 2,009개의 고품질 수학 문제를 수집했습니다. 다양한 유형의 문제 (객관식, 서술형, 다단계 문제)와 난이도(3단계), 그리고 11개의 수학 과목 영역을 포함하며, 다중 시각적 맥락에서 대규모 다중 모달 언어 모델(MLLM)의 수학적 추론 능력을 종합적으로 평가할 수 있도록 설계되었습니다. 실험 결과, MLLM은 다중 시각적 수학 문제 해결에 어려움을 겪고 있으며, 인간의 능력과 상당한 성능 차이를 보이는 것으로 나타났습니다. 본 연구는 다양한 모델의 성능과 오류 패턴을 분석하여 다중 시각적 환경에서 MLLM의 수학적 추론 능력에 대한 통찰력을 제공합니다.