본 논문은 개방형 도시 3D 공간에서의 움직임 중에 구현된 인지 능력을 평가하기 위한 벤치마크를 제시합니다. 비디오-대규모 언어 모델(Video-LLMs)이 인간처럼 연속적인 1인칭 시각 관찰을 자연스럽게 처리하여 기억, 인지, 추론 및 탐색을 가능하게 하는지 평가하기 위해, 실제 도시와 시뮬레이션 환경에서 드론을 수동으로 조종하여 1.5k개의 3D 구현 동작 비디오 데이터를 수집하고, 이를 바탕으로 5.2k개의 객관식 질문을 생성했습니다. 17개의 널리 사용되는 Video-LLMs를 평가한 결과, 도시 구현 인지 능력의 현재 한계를 드러냈으며, 상관 분석을 통해 다양한 작업 간의 관계를 파악하여 인과 추론이 기억, 인지, 탐색과 강한 상관관계를 가지는 반면, 반실제 및 연관 추론 능력은 다른 작업과의 상관관계가 낮다는 것을 보여줍니다. 또한 미세 조정을 통한 도시 구현에서 Sim-to-Real 전이 가능성을 검증했습니다.