본 논문은 기존의 강화학습 알고리즘이 모든 행동을 시도해야 하는 한계를 극복하기 위해, 멘토의 도움을 받고 유사한 상태 간 지식 전이를 활용하는 새로운 학습 방식을 제안합니다. 이를 통해 에이전트는 안전하고 효과적으로 학습할 수 있음을 보여줍니다. 특히, 복구 불가능한 역동성을 가진 마르코프 결정 과정(MDP)을 포함한 모든 MDP에서 시간 수평선에 따라 감소하는 후회(regret)와 멘토 질문 횟수를 갖는 알고리즘을 제시하고, 이를 위한 세 가지 환원 과정을 증명합니다. 본 연구는 알려지지 않고, 경계가 없으며, 위험이 높은 환경에서 에이전트가 높은 보상을 얻으면서 자급자족할 수 있음을 형식적으로 증명한 최초의 연구일 수 있습니다.