본 논문은 강화 학습(Reinforcement Learning, RL) 기반 프레임워크를 사용하여 재설정(resetting)을 포함하는 확률적 탐색 과정에서 탐색 효율을 최적화하는 방법을 제시합니다. 먼저, 브라운 운동 탐색(Brownian search)이라는 기준 모델에서 RL 에이전트가 최적의 재설정 전략에 가까운 전략을 학습하는 것을 검증합니다. 나아가, 에이전트가 재설정 시점뿐 아니라 공간적 동역학(방향 전환)도 제어할 수 있도록 확장하여, 환경의 특성에 맞춰 재설정과 방향 전환 전략을 동시에 적응하는 것을 보여줍니다. 결과적으로 RL이 최적화 도구이자 새로운 해석 가능한 전략을 발견하는 메커니즘으로 작용함을 보여줍니다.