본 논문은 정밀 농업을 위한 자율 시스템의 효율적인 탐색 문제를 다룬다. 농업 현장을 그리드 환경으로 표현하고, 각 셀에는 관찰 가능한 표적(예: 손상된 작물)이 존재할 수 있다. 에이전트는 부분적이고 순차적인 관찰을 통해 각 셀의 표적 개수를 추론해야 한다. 이를 위해 사전 훈련된 LSTM 기반의 신뢰 모델과 POV(Point of View) 가시성 마스크를 포함하는 2단계 심층 학습 프레임워크를 제안한다. 세 가지 에이전트 아키텍처(정보 이득 기반 에이전트, DQN 에이전트, Double-CNN DQN 에이전트)를 비교 분석하여 Double-CNN DQN 에이전트가 특히 큰 환경에서 우수한 탐색 효율을 보임을 확인했다. 불확실성을 고려한 정책이 강력하고 확장 가능한 탐색으로 이어짐을 보여준다.