본 논문은 복잡한 문제 해결 시 인간의 하위 작업 분할 및 관찰 기반 계획 조정 능력을 강화학습(RL) 에이전트에 적용하는 방법을 제시합니다. 기존 RL 알고리즘의 단점인 훈련 데이터 양의 과다 소모 문제를 해결하기 위해, 미분 가능한 심볼릭 플래너(Dylan)라는 새로운 프레임워크를 제안합니다. Dylan은 인간의 사전 지식을 활용하여 보상 모델을 동적으로 조정하고, 중간 하위 작업을 통해 에이전트를 안내하여 효율적인 탐색을 가능하게 합니다. 또한, 고수준 계획자로서 기본 정책을 구성하여 새로운 행동을 생성하며 무한 루프 등의 문제를 방지합니다. 실험 결과, Dylan은 RL 에이전트의 성능을 크게 향상시키고 미지의 작업에 대한 일반화를 용이하게 함을 보여줍니다.