본 논문은 계층적 강화 학습(HRL) 에이전트의 효율적인 탐색과 빠른 적응 능력 향상을 위해 메타러닝을 통합하는 새로운 방법을 제시합니다. 기존 HRL의 한계점인 효율적인 탐색과 빠른 적응 문제를 해결하기 위해, 메타러닝을 활용하여 이전 경험을 바탕으로 빠른 작업 적응을 가능하게 하고, 내재적 동기 부여 메커니즘을 통해 새로운 상태 발견을 보상함으로써 효율적인 탐색을 유도합니다. 특히, 사용자 정의 그리드 환경 내에서 고수준 정책이 여러 저수준 정책 중에서 선택하는 에이전트를 사용하며, 미분 가능한 내부 루프 업데이트를 사용한 기울기 기반 메타러닝을 통해 점진적으로 어려워지는 과정(curriculum)의 작업에 걸쳐 성능을 최적화합니다. 실험 결과, 메타러닝이 강화된 계층적 에이전트는 메타러닝과 내재적 동기 부여가 없는 표준 HRL 접근 방식보다 학습 속도, 누적 보상, 성공률이 훨씬 높음을 보여줍니다. 이러한 결과는 복잡한 작업을 해결하는 데 있어 메타러닝, 커리큘럼 학습 및 내재적 동기 부여를 결합하는 것이 HRL 에이전트의 성능을 향상시키는 데 효과적임을 강조합니다.