Sign In

Highly Efficient Self-Adaptive Reward Shaping for Reinforcement Learning

Created by
  • Haebom
Category
Empty

저자

Haozhe Ma, Zhengding Luo, Thanh Vinh Vo, Kuankuan Sima, Tze-Yun Leong

개요

본 논문은 강화학습에서 희소 보상 문제를 해결하기 위한 자가 적응형 보상 형성 기법을 제시한다. 기존 경험에서 도출된 성공률을 형성된 보상으로 활용하며, 베타 분포를 이용하여 성공률을 표현하여 불확실성에서 신뢰도 높은 값으로 동적으로 진화하도록 한다. 초기에는 탐험을 장려하기 위해 보상에 더 많은 무작위성을 부여하고, 시간이 지남에 따라 확실성이 증가하여 착취를 강화함으로써 탐험과 착취의 균형을 자연스럽게 맞춘다. 고차원 연속 상태 공간에 대해 계산 효율적인 비모수적이고 학습이 필요없는 해결책을 제공하기 위해 커널 밀도 추정(KDE)과 랜덤 푸리에 특징(RFF)을 결합하여 베타 분포를 도출한다. 매우 희소한 보상을 가진 다양한 작업에서 유의미한 표본 효율 및 수렴 안정성 향상을 보여준다.

시사점, 한계점

시사점:
희소 보상 문제를 효과적으로 해결하는 새로운 자가 적응형 보상 형성 기법 제시.
베타 분포와 KDE, RFF의 결합을 통한 계산 효율적이고, 비모수적이며, 학습이 필요없는 해결책 제공.
탐험과 착취의 균형을 자연스럽게 조절.
다양한 희소 보상 문제에서 표본 효율 및 수렴 안정성 향상을 실험적으로 증명.
한계점:
본 논문에서 제시된 방법의 일반화 성능에 대한 추가적인 연구가 필요할 수 있음.
다양한 환경 및 문제에 대한 적용 가능성에 대한 추가적인 검증이 필요할 수 있음.
RFF의 매개변수 선택에 대한 논의가 부족할 수 있음.
고차원 공간에서의 계산 비용에 대한 보다 자세한 분석이 필요할 수 있음.
👍