CityEQA: A Hierarchical LLM Agent on Embodied Question Answering Benchmark in City Space
Created by
Haebom
저자
Yong Zhao, Kai Xu, Zhengqiu Zhu, Yue Hu, Zhiheng Zheng, Yingfeng Chen, Yatai Ji, Chen Gao, Yong Li, Jincai Huang
개요
본 논문은 실내 환경에 집중되어 있던 기존의 Embodied Question Answering (EQA) 연구를 넘어, 도시 환경의 복잡성을 포함하는 새로운 EQA 과제인 CityEQA를 제시합니다. CityEQA는 동적인 도시 공간에서 능동적인 탐색을 통해 개방형 어휘 질문에 답하는 과제입니다. 이를 위해 현실적인 3D 도시 시뮬레이터를 기반으로 1,412개의 인간 주석 작업을 포함하는 첫 번째 벤치마크 데이터셋 CityEQA-EC를 제시합니다. 또한, CityEQA를 위해 Planner-Manager-Actor (PMA)라는 새로운 에이전트를 제안합니다. PMA는 장기 계획 및 계층적 작업 실행을 가능하게 하며, Planner는 질문 답변을 하위 작업으로 분해하고, Manager는 공간 추론을 위한 객체 중심의 인지 지도를 유지하며, Actor는 탐색, 탐험 및 수집 하위 작업을 처리합니다. 실험 결과, PMA는 인간 수준의 정답률 60.7%를 달성하여 경쟁 기준 모델을 상당히 능가하지만, 인간과의 성능 차이는 CityEQA에서 향상된 시각적 추론의 필요성을 보여줍니다. 본 연구는 도시 공간 지능의 미래 발전을 위한 길을 열어줍니다. 데이터셋과 코드는 https://github.com/BiluYong/CityEQA.git 에서 이용 가능합니다.