ReasonMap이라는 벤치마크를 소개합니다. ReasonMap은 13개국 30개 도시의 고해상도 교통 지도를 사용하여 다중 모달 대규모 언어 모델(MLLM)의 미세한 시각적 이해 및 공간 추론 능력을 평가하도록 설계되었습니다. 1,008개의 질문-답변 쌍을 포함하며, 두 가지 질문 유형과 세 가지 템플릿으로 구성됩니다. 15개의 인기 있는 MLLM(기본 및 추론 변형 포함)을 종합적으로 평가한 결과, 오픈소스 모델에서는 기본 모델이 추론 모델보다 성능이 우수한 반면, 클로즈드소스 모델에서는 그 반대의 경향이 나타나는 것을 발견했습니다. 또한, 시각적 입력이 마스킹될 경우 성능이 전반적으로 저하되는데, 이는 MLLM이 일부 질문에 대한 답변에 사전 지식을 활용할 수 있지만, 미세한 시각적 추론 작업에는 여전히 강력한 성능을 위해 진정한 시각적 인식이 필요함을 시사합니다.