ReasonMap이라는 새로운 벤치마크를 제시하여 다중 모달 대규모 언어 모델(MLLM)의 미세한 시각적 이해 및 공간 추론 능력을 평가한다. ReasonMap은 13개국 30개 도시의 고해상도 교통 지도를 사용하며, 두 가지 유형의 질문과 세 가지 템플릿으로 구성된 1,008개의 질문-답변 쌍을 포함한다. 15개의 인기 있는 MLLM(기본 및 추론 변형 포함)을 포괄적으로 평가한 결과, 오픈소스 모델에서는 기본 모델이 추론 모델보다 성능이 우수한 반면, 클로즈드소스 모델에서는 그 반대의 경향이 나타나는 것을 발견했다. 또한, 시각적 입력이 마스킹될 경우 성능이 전반적으로 저하되는데, 이는 MLLM이 일부 질문에 대한 답변에 사전 지식을 활용할 수 있지만, 미세한 시각적 추론 작업에는 강력한 성능을 위해 실제 시각적 인식이 필요함을 시사한다. 이 연구는 시각적 추론에 대한 새로운 통찰력을 제공하고 오픈소스 모델과 클로즈드소스 모델 간의 차이를 조사하는 데 기여한다.