모델 기반 계획 및 제어기는 다양한 목표를 효율적으로 최적화하고 장기간 작업에 일반화할 수 있기 때문에 복잡한 조작 문제를 해결하는 데 일반적으로 사용됩니다. 그러나 잡음이 많은 작동, 부분 관측 가능성 및 불완전한 모델로 인해 배포 중에 실패하는 경우가 많습니다. 로봇이 이러한 실패로부터 복구할 수 있도록 본 논문에서는 계층적 강화 학습을 사용하여 복구 정책을 학습하는 방법을 제안합니다. 복구 정책은 감각 관측을 기반으로 실패가 감지될 때 트리거되며, 로봇을 공칭 모델 기반 제어기를 사용하여 작업을 완료할 수 있는 상태로 가져가려고 합니다. RecoveryChaining이라는 본 연구의 접근 방식은 모델 기반 제어기를 추가적인 공칭 옵션으로 제공하는 하이브리드 액션 공간을 사용하여 복구 정책이 희소 보상으로도 복구 방법, 공칭 제어기로 전환할 시기, 어떤 제어기로 전환할지를 결정할 수 있도록 합니다. 본 연구는 희소 보상을 사용하는 3가지 다단계 조작 작업에서 본 접근 방식을 평가하여 기준선보다 훨씬 더 강력한 복구 정책을 학습함을 보여줍니다. 시뮬레이션에서 학습된 복구 정책을 물리적 로봇으로 성공적으로 전송하여 본 방법을 사용한 시뮬레이션-실제 전송의 실현 가능성을 입증했습니다.