본 논문은 상향식(top-down) 이미지 이해를 위한 Vision-Language Model (VLM)의 종합적인 벤치마크인 TDBench를 소개한다. 기존 VLM들은 주로 정면 이미지 이해에 집중되어 왔으나, 상향식 이미지 이해는 자율 주행, 항공 영상, 공간 계획 등 다양한 분야에서 중요한 역할을 한다. TDBench는 공개된 상향식 이미지 데이터셋과 고품질 시뮬레이션 이미지를 활용하여 구성되었으며, 10가지 평가 차원에 걸친 시각적 질문-응답 쌍으로 이루어져 있다. 또한, 실제 시나리오에서 자주 발생하지만 덜 연구된 네 가지 사례 연구를 수행하여 기존 VLM의 강점과 한계를 밝히고, 향후 연구를 위한 통찰력을 제공한다.