Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CityEQA: A Hierarchical LLM Agent on Embodied Question Answering Benchmark in City Space

Created by
  • Haebom

저자

Yong Zhao, Kai Xu, Zhengqiu Zhu, Yue Hu, Zhiheng Zheng, Yingfeng Chen, Yatai Ji, Chen Gao, Yong Li, Jincai Huang

개요

본 논문은 실내 환경에 집중되어 있던 기존의 Embodied Question Answering (EQA) 연구를 넘어, 도시 환경의 복잡성을 포함하는 새로운 EQA 과제인 CityEQA를 제시합니다. CityEQA는 동적인 도시 공간에서 능동적인 탐색을 통해 개방형 어휘 질문에 답하는 과제입니다. 이를 위해 현실적인 3D 도시 시뮬레이터를 기반으로 1,412개의 인간 주석 작업을 포함하는 첫 번째 벤치마크 데이터셋 CityEQA-EC를 제시합니다. 또한, CityEQA를 위해 Planner-Manager-Actor (PMA)라는 새로운 에이전트를 제안합니다. PMA는 장기 계획 및 계층적 작업 실행을 가능하게 하며, Planner는 질문 답변을 하위 작업으로 분해하고, Manager는 공간 추론을 위한 객체 중심의 인지 지도를 유지하며, Actor는 탐색, 탐험 및 수집 하위 작업을 처리합니다. 실험 결과, PMA는 인간 수준의 정답률 60.7%를 달성하여 경쟁 기준 모델을 상당히 능가하지만, 인간과의 성능 차이는 CityEQA에서 향상된 시각적 추론의 필요성을 보여줍니다. 본 연구는 도시 공간 지능의 미래 발전을 위한 길을 열어줍니다. 데이터셋과 코드는 https://github.com/BiluYong/CityEQA.git 에서 이용 가능합니다.

시사점, 한계점

시사점:
동적인 도시 환경에서의 Embodied Question Answering (CityEQA)이라는 새로운 과제 제시 및 CityEQA-EC라는 대규모 벤치마크 데이터셋 공개.
장기 계획 및 계층적 작업 실행이 가능한 새로운 에이전트 PMA 제안 및 경쟁 기준 모델 대비 우수한 성능 달성.
도시 공간 지능 연구에 대한 새로운 가능성 제시.
한계점:
PMA 에이전트의 성능이 인간 수준에는 미치지 못하며, 시각적 추론 향상의 필요성 제기.
CityEQA-EC 데이터셋의 규모 및 다양성에 대한 추가적인 확장 필요성.
👍