강화 학습은 의사 결정 프로세스를 모델링하는 강력한 도구이지만, 많은 과제에서 열린 문제로 남아 있는 탐색-활용 trade-off에 의존합니다. 본 연구에서는 초기 단계의 에이전트에게 인접한 상태의 제한된 영역에서 파생된 행동을 고려하는 것이 탐색 시 더 나은 행동으로 이어질 수 있다는 직관에 따라, 인접 상태 기반의 모델 프리 탐색을 연구합니다. 인접 상태 조사를 기반으로 탐색적 행동을 선택하는 두 가지 알고리즘을 제안하며, 그 중 하나인 ${\rho}$-explore가 이산 환경에서 Double DQN baseline보다 Eval Reward Return 측면에서 49% 더 우수한 성능을 보입니다.