본 논문은 강화학습(Reinforcement Learning, RL)에서 선형 시간 논리(Linear Temporal Logic, LTL)를 이용하여 복잡한 작업을 명세하고 보상 함수를 도출하는 기존 방법의 한계를 해결하고자 제안되었다. 기존 방법들은 작업 완료 시에만 보상을 제공하는 스파스 보상(sparse reward)을 사용하여 중간 목표 달성에 대한 인센티브를 제공하지 못하는 문제점을 가지고 있다. 본 논문에서는 LTL 공식으로 명세된 작업을 최대한 완료하도록 유도하는 보상 함수들을 제안하고, 학습 과정 동안 보상 함수를 동적으로 업데이트하는 적응형 보상 조형(adaptive reward shaping) 기법을 개발하였다. 다양한 벤치마크 RL 환경에서의 실험 결과, 제안된 방법이 기존 방법들보다 우수한 성능을 보이며, 더 빠른 수렴과 더 높은 기대 수익 및 작업 완료율을 달성함을 보였다.