Safe Continual Domain Adaptation after Sim2Real Transfer of Reinforcement Learning Policies in Robotics
Created by
Haebom
Category
Empty
저자
Josip Josifovski, Shangding Gu, Mohammadhossein Malmir, Haoliang Huang, Sayantan Auddy, Nicolas Navarro-Guerrero, Costas Spanos, Alois Knoll
개요
본 논문은 강화학습(RL)에서 시뮬레이션으로 훈련된 정책을 실제 로봇에 적용하는 과정에서 도메인 랜덤화의 효율성을 개선하기 위한 연구를 제시합니다. 기존 도메인 랜덤화 기법들은 광범위한 랜덤화를 통해 실제 시스템 매개변수의 불확실성을 보완하지만, 비효율적인 실제 정책을 초래하는 한계가 있습니다. 또한, RL 기반 최적화 과정의 불안정성과 실제 시스템에서 위험한 탐색 행동을 피해야 할 필요성 때문에, 도메인 랜덤화된 시뮬레이션에서 사전 훈련된 정책은 배포 후 고정됩니다. 본 연구는 안전한 RL과 지속적 학습을 도메인 랜덤화된 시뮬레이션에 활용하여 이러한 한계를 해결하고 실제 로봇 제어에서 안전한 배포 시점 정책 적응을 가능하게 합니다. 실험 결과, 제안된 방법이 안전성 위험을 최소화하면서 사전 훈련 단계에서 랜덤화된 시뮬레이션에서 발견된 일반 정책의 치명적인 망각 문제를 피하면서 현재 도메인 분포와 실제 시스템의 환경 역학에 적응하는 정책을 가능하게 함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
안전한 강화학습과 지속적 학습을 통해 도메인 랜덤화의 효율성을 높이고 실제 로봇 제어에서 안전한 배포 시점 정책 적응을 가능하게 함.
◦
실제 시스템의 변화하는 매개변수나 환경 역학에 대한 정책의 적응성을 향상시킴.
◦
사전 훈련된 정책의 치명적인 망각 문제를 해결함.
•
한계점:
◦
제안된 방법의 일반화 성능에 대한 추가적인 연구가 필요할 수 있음. (구체적인 한계점은 논문에서 명시적으로 언급되지 않음)
◦
특정 로봇 시스템 및 환경에 대한 실험 결과이므로 다른 시스템으로의 일반화 가능성에 대한 검증이 필요함.