본 논문은 강화학습 정책의 설명 가능성을 높이기 위해 선형 시간 논리(LTL) 공식을 이용한 새로운 방법을 제시합니다. 강화학습 정책은 보상을 극대화하기 위해 상태-행동 매핑을 안내하지만, 사람이 이해하기에는 어려울 수 있습니다. 본 논문에서 제안하는 방법은 정책이 달성하는 궁극적인 목표와 실행 과정에서 유지하는 전제 조건을 모두 설명하는 LTL 공식을 찾는 알고리즘을 통해 정책을 설명합니다. 캡쳐 더 플래그 시뮬레이션 게임과 자동차 주차 환경에서 제안된 방법의 효과를 보여줍니다.