도시 환경에서의 공중 시각적 객체 탐색(AVOS) 과제를 위해, 외부 안내 없이 시각적 및 텍스트적 단서를 사용하여 목표 객체를 자율적으로 탐색하고 식별하는 무인 항공기(UAV)를 위한 벤치마크 데이터셋 CityAVOS와, 인간의 3단계 인지 과정을 모방한 새로운 에이전트 방법 PRPSearcher를 제시한다. CityAVOS는 6가지 객체 범주에 걸쳐 다양한 난이도의 2,420개 과제를 포함하며, PRPSearcher는 다중 모드 대규모 언어 모델(MLLM)을 기반으로 객체 중심 동적 의미 맵, 3D 인지 맵, 3D 불확실성 맵을 생성하여 공간 인식, 목표 추론, 균형 잡힌 탐색-활용 전략을 수행한다. 또한 유사 객체 간섭을 완화하기 위한 잡음 제거 메커니즘과 적응적 행동 계획을 위한 IPT 프롬프팅 메커니즘을 통합한다. CityAVOS에 대한 실험 결과, PRPSearcher는 기존 기준 모델보다 성공률과 탐색 효율성이 크게 향상됨을 보여준다.