본 논문은 단조 증가적 성능 개선 보장 하에 행동적 선호도를 장려하는 탐색 전략인 ε-retrain을 제시합니다. 에이전트가 행동적 선호도를 충족하지 못한 상태 공간의 부분인 재훈련 영역을 수집하는 반복적 절차를 도입하여, 감소하는 계수 ε을 사용하여 일반적인 균일 재시작 상태 분포와 재훈련 영역 간을 전환함으로써 에이전트가 선호도를 위반한 상황에서 재훈련할 수 있도록 합니다. 또한 신경망의 공식적 검증을 사용하여 에이전트가 이러한 행동적 선호도를 준수하는 정도를 증명 가능하게 정량화합니다. 보행, 전력망 및 탐색 작업에 걸쳐 수백 개의 시드에 대한 실험 결과, 제시된 방법이 성능 및 샘플 효율성 향상을 가져온다는 것을 보여줍니다.