본 논문은 복잡한 도시 환경에서의 자율적인 공중 시각적 물체 탐색(AVOS) 과제를 해결하기 위해, 새로운 벤치마크 데이터셋 CityAVOS와 에이전트 기반 방법 PRPSearcher를 제시합니다. CityAVOS는 6가지 물체 종류에 걸쳐 다양한 난이도의 2,420개 과제를 포함하고 있으며, UAV 에이전트의 탐색 능력을 종합적으로 평가할 수 있도록 설계되었습니다. PRPSearcher는 다중 모달 대규모 언어 모델(MLLM)을 기반으로 인간의 3단계 인지 과정(지각, 추론, 계획)을 모방하여 물체 중심 동적 의미 지도, 3D 인지 지도, 3D 불확실성 지도를 생성하고, 유사 물체 간섭을 완화하는 잡음 제거 메커니즘과 적응적 행동 계획을 위한 IPT 프롬프팅 메커니즘을 통합합니다. CityAVOS에서의 실험 결과, PRPSearcher는 기존 기준 모델보다 성공률과 탐색 효율성 측면에서 우수한 성능을 보였습니다. 하지만 인간과의 성능 차이는 AVOS 과제에서 더 나은 의미 추론 및 공간 탐색 능력의 필요성을 보여줍니다.