MV-MATH는 실제 K-12 수학 문제 상황에서 발췌한 2,009개의 고품질 수학 문제로 구성된 새로운 멀티비주얼 수학 데이터셋입니다. 기존의 단일 시각적 맥락에 국한된 벤치마크와 달리, MV-MATH는 텍스트와 여러 이미지가 결합된 다중 시각적 맥락을 제공합니다. 다양한 난이도(3단계)와 11개의 수학 영역을 포함하며, 객관식, 주관식, 다단계 문제 등 다양한 유형의 문제를 포함합니다. 이를 통해 다중 시각적 맥락에서 MLLM(다중 모달 대규모 언어 모델)의 수학적 추론 능력을 평가하는 포괄적이고 엄격한 벤치마크 역할을 합니다. 실험 결과, MLLM은 다중 시각적 수학 문제에서 인간의 능력에 비해 상당한 성능 차이를 보이며 어려움을 겪는다는 것을 확인했습니다. 또한, 다양한 모델의 성능과 오류 패턴을 분석하여 다중 시각적 환경에서 MLLM의 수학적 추론 능력에 대한 통찰력을 제공합니다.