본 논문은 강화 학습(RL) 알고리즘이 무작위적이고 비정상적인 환경에서 직면하는 문제, 특히 보상이 희소한 환경에서의 어려움을 다룹니다. 자율 수중 차량(AUV)을 이용한 수중 오염 구름 탐색과 같은 응용 분야에서 이러한 문제는 더욱 심화됩니다. 본 연구는 고전적인 RL 접근 방식을 재검토하고 수정하여 희소하고 무작위적이며 비정상적인 환경에서 효율적으로 작동하도록 하는 것을 목표로 합니다. 계층적 알고리즘 변경, 다중 목표 학습, 위치 메모리를 외부 출력 필터로 통합하는 등 다양한 수정 사항을 체계적으로 연구하며, 수정된 Monte Carlo 기반 접근 방식이 전통적인 Q-learning 및 두 가지 전수 검색 패턴보다 성능이 우수함을 보여줍니다.