Enabling Option Learning in Sparse Rewards with Hindsight Experience Replay

Created by

Haebom

저자

Gabriel Romio, Mateus Begnini Melchiades, Bruno Castro da Silva, Gabriel de Oliveira Ramos

💡 개요

본 연구는 희소 보상 환경에서 계층적 강화학습(HRL)의 성능을 향상시키기 위해 Hindsight Experience Replay (HER) 메커니즘을 Option-Critic (OC) 및 Multi-updates Option Critic (MOC) 프레임워크에 통합하는 MOC-HER를 제안합니다. 더 나아가, 객체 조작 작업과 같이 보상이 객체의 최종 상태뿐만 아니라 에이전트의 상호작용에도 의존하는 복잡한 시나리오를 해결하기 위해, 객체의 상태와 에이전트의 이펙터(effector) 위치를 모두 활용하는 두 가지 가상 목표를 생성하는 Dual Objectives Hindsight Experience Replay (2HER)를 개발했습니다. 실험 결과, 제안된 MOC-2HER는 기존 MOC 및 MOC-HER 대비 객체 조작 작업에서 최대 90%의 성공률을 달성하며, 희소 보상 및 다중 목표 작업에서 듀얼 목표 재레이블링 전략의 효과를 입증했습니다.

🔑 시사점 및 한계

•

희소 보상 환경에서 학습 가능한 옵션의 탐색 및 활용 능력을 크게 향상시켰습니다.

•

객체 조작과 같이 복잡한 상호작용이 필요한 작업에서 HRL의 성능 한계를 극복할 수 있는 새로운 접근 방식을 제시했습니다.

•

듀얼 목표 재레이블링 전략이 어려운 환경에서 에이전트가 목표를 달성하는 데 필요한 상호작용을 더 효과적으로 학습하도록 유도합니다.

•

제안된 방법론의 일반화 가능성 및 다른 복잡한 HRL 작업으로의 확장성에 대한 추가적인 연구가 필요할 수 있습니다.

PDF 보기

Made with Slashpage