Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Towards Autonomous UAV Visual Object Search in City Space: Benchmark and Agentic Methodology

Created by
  • Haebom

저자

Yatai Ji, Zhengqiu Zhu, Yong Zhao, Beidan Liu, Chen Gao, Yihao Zhao, Sihang Qiu, Yue Hu, Quanjun Yin, Yong Li

개요

도시 환경에서의 공중 시각적 객체 탐색(AVOS) 과제를 위해, 외부 안내 없이 시각적 및 텍스트적 단서를 사용하여 목표 객체를 자율적으로 탐색하고 식별하는 무인 항공기(UAV)를 위한 벤치마크 데이터셋 CityAVOS와, 인간의 3단계 인지 과정을 모방한 새로운 에이전트 방법 PRPSearcher를 제시한다. CityAVOS는 6가지 객체 범주에 걸쳐 다양한 난이도의 2,420개 과제를 포함하며, PRPSearcher는 다중 모드 대규모 언어 모델(MLLM)을 기반으로 객체 중심 동적 의미 맵, 3D 인지 맵, 3D 불확실성 맵을 생성하여 공간 인식, 목표 추론, 균형 잡힌 탐색-활용 전략을 수행한다. 또한 유사 객체 간섭을 완화하기 위한 잡음 제거 메커니즘과 적응적 행동 계획을 위한 IPT 프롬프팅 메커니즘을 통합한다. CityAVOS에 대한 실험 결과, PRPSearcher는 기존 기준 모델보다 성공률과 탐색 효율성이 크게 향상됨을 보여준다.

시사점, 한계점

시사점:
도시 환경에서의 자율적 객체 탐색을 위한 최초의 벤치마크 데이터셋 CityAVOS를 제공한다.
인간의 인지 과정을 모방한 새로운 에이전트 방법 PRPSearcher를 제안하고, 우수한 성능을 입증한다.
다중 모달 대규모 언어 모델을 활용한 효과적인 객체 탐색 전략을 제시한다.
향후 AVOS 연구를 위한 기반을 마련한다.
한계점:
인간 수준의 성능에는 미치지 못하며, 더 나은 의미적 추론 및 공간 탐색 기능이 필요하다.
데이터셋의 범위 및 다양성이 향후 개선될 여지가 있다.
👍