본 논문은 대규모 다중 모달 모델(LMMs)의 도시 환경 이해 능력을 종합적으로 평가하기 위한 새로운 벤치마크인 UrBench를 제시합니다. 기존 벤치마크의 한계를 극복하고자, 11개 도시의 데이터를 활용하여 지역 수준 및 역할 수준의 질문 11,600개를 포함하는 광범위한 데이터셋을 구축했습니다. Geo-Localization, Scene Reasoning, Scene Understanding, Object Understanding의 4가지 차원에 걸쳐 총 14가지 유형의 과제를 다루며, 다양한 시점(multi-view)을 고려한 복잡한 도시 시나리오에서 LMMs의 성능을 평가합니다. 21개의 LMM을 평가한 결과, 현재 LMM들은 도시 환경에서 다양한 측면에서 어려움을 겪고 있으며, 최고 성능 모델인 GPT-4o조차도 인간보다 평균 17.4% 낮은 성능을 보이는 것으로 나타났습니다. 특히, 서로 다른 시점 간의 관계 이해에 있어 LMM들의 일관성 없는 행동이 드러났습니다.