Sign In

UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios

Created by
  • Haebom
Category
Empty

저자

Baichuan Zhou, Haote Yang, Dairong Chen, Junyan Ye, Tianyi Bai, Jinhua Yu, Songyang Zhang, Dahua Lin, Conghui He, Weijia Li

개요

본 논문은 대규모 다중 모달 모델(LMMs)의 도시 환경 이해 능력을 종합적으로 평가하기 위한 새로운 벤치마크인 UrBench를 제시합니다. 기존 벤치마크의 한계를 극복하고자, 11개 도시의 데이터를 활용하여 지역 수준 및 역할 수준의 질문 11,600개를 포함하는 광범위한 데이터셋을 구축했습니다. Geo-Localization, Scene Reasoning, Scene Understanding, Object Understanding의 4가지 차원에 걸쳐 총 14가지 유형의 과제를 다루며, 다양한 시점(multi-view)을 고려한 복잡한 도시 시나리오에서 LMMs의 성능을 평가합니다. 21개의 LMM을 평가한 결과, 현재 LMM들은 도시 환경에서 다양한 측면에서 어려움을 겪고 있으며, 최고 성능 모델인 GPT-4o조차도 인간보다 평균 17.4% 낮은 성능을 보이는 것으로 나타났습니다. 특히, 서로 다른 시점 간의 관계 이해에 있어 LMM들의 일관성 없는 행동이 드러났습니다.

시사점, 한계점

시사점:
LMMs의 도시 환경 이해 능력에 대한 종합적이고 체계적인 평가를 위한 새로운 벤치마크 UrBench를 제시.
기존 LMMs의 도시 환경 이해 능력의 한계를 명확히 제시. 특히, 다양한 시점 간의 관계 이해 및 복잡한 작업 수행 능력 부족을 확인.
향후 LMMs의 도시 환경 이해 능력 향상을 위한 연구 방향 제시.
한계점:
UrBench의 데이터셋이 특정 도시에 편향되어 있을 가능성.
평가 대상 LMMs의 종류 및 버전에 따라 결과가 달라질 수 있음.
인간의 평가와 LMMs의 평가 기준의 차이에 대한 고려 필요.
다양한 도시 환경 유형을 충분히 반영하지 못했을 가능성.
👍