본 논문은 다중 모드 대규모 언어 모델(MLLM)의 수학적 및 공간적 추론 능력을 평가하기 위한 새로운 벤치마크인 MaRVL-QA를 제시합니다. MaRVL-QA는 수학적 표면 플롯을 이용하여 의미적 잡음 없이 추론 능력을 순수하게 평가할 수 있도록 설계되었습니다. 두 가지 새로운 과제, 즉 국소 최대값과 같은 특징을 식별하고 열거하는 위상적 계산과 기하학적 변환을 인식하는 변환 인식으로 구성되어 있습니다. 실험 결과, 최첨단 MLLM조차도 강력한 공간 추론 대신 피상적인 휴리스틱에 의존하는 경향이 있음을 보여줍니다. MaRVL-QA는 MLLM의 추론 능력 향상을 위한 연구에 도움이 될 것입니다.