Sign In

RecoveryChaining: Learning Local Recovery Policies for Robust Manipulation

Created by
  • Haebom
Category
Empty

저자

Shivam Vats, Devesh K. Jha, Maxim Likhachev, Oliver Kroemer, Diego Romeres

개요

모델 기반 계획 및 제어기는 다양한 목표를 효율적으로 최적화하고 장기간 작업에 일반화할 수 있기 때문에 복잡한 조작 문제를 해결하는 데 일반적으로 사용됩니다. 그러나 잡음이 많은 작동, 부분 관측 가능성 및 불완전한 모델로 인해 배포 중에 실패하는 경우가 많습니다. 로봇이 이러한 실패로부터 복구할 수 있도록 본 논문에서는 계층적 강화 학습을 사용하여 복구 정책을 학습하는 방법을 제안합니다. 복구 정책은 감각 관측을 기반으로 실패가 감지될 때 트리거되며, 로봇을 공칭 모델 기반 제어기를 사용하여 작업을 완료할 수 있는 상태로 가져가려고 합니다. RecoveryChaining이라는 본 연구의 접근 방식은 모델 기반 제어기를 추가적인 공칭 옵션으로 제공하는 하이브리드 액션 공간을 사용하여 복구 정책이 희소 보상으로도 복구 방법, 공칭 제어기로 전환할 시기, 어떤 제어기로 전환할지를 결정할 수 있도록 합니다. 본 연구는 희소 보상을 사용하는 3가지 다단계 조작 작업에서 본 접근 방식을 평가하여 기준선보다 훨씬 더 강력한 복구 정책을 학습함을 보여줍니다. 시뮬레이션에서 학습된 복구 정책을 물리적 로봇으로 성공적으로 전송하여 본 방법을 사용한 시뮬레이션-실제 전송의 실현 가능성을 입증했습니다.

시사점, 한계점

시사점:
계층적 강화 학습을 이용하여 모델 기반 제어기의 실패로부터 로봇이 복구할 수 있는 강력한 복구 정책을 학습하는 방법을 제시.
희소 보상 환경에서도 효과적으로 동작하는 하이브리드 액션 공간을 사용하여 복구 정책의 유연성과 적응력을 향상.
시뮬레이션에서 학습된 복구 정책을 실제 로봇으로 성공적으로 전송하여 실제 적용 가능성을 입증.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구가 필요.
다양한 유형의 실패 상황에 대한 로버스트니스 평가가 추가적으로 필요.
복구 정책 학습에 필요한 계산 비용 및 학습 시간에 대한 분석이 부족.
👍