Value Bonuses using Ensemble Errors for Exploration in Reinforcement Learning

Created by

Haebom

저자

Abdul Wahab, Raksha Kumaraswamy, Martha White

💡 개요

본 논문은 강화학습에서 탐색을 위한 새로운 방법론인 Value Bonuses with Ensemble errors (VBE)를 제안한다. VBE는 행동-가치 함수 앙상블의 예측 오차를 활용하여 첫 방문에 대한 낙관주의를 제공하고 깊은 탐색을 유도하는 가치 보너스를 설계한다. 제안된 VBE는 기존의 탐색 방법론들보다 우수한 성능을 보이며 Atari와 같은 복잡한 환경에서도 확장성을 보여준다.

🔑 시사점 및 한계

•

VBE는 앙상블 예측 오차를 사용하여 탐색을 위한 효과적인 가치 보너스를 생성함으로써 첫 방문 낙관주의를 달성한다.

•

제안된 방법론은 기존의 대표적인 탐색 알고리즘들보다 여러 환경에서 더 나은 성능을 보인다.

•

향후 연구에서는 VBE의 복잡한 환경에서의 성능을 더욱 개선하고, 실제 로봇 제어와 같은 응용 분야에 적용하는 방안을 탐구할 수 있다.

PDF 보기

Made with Slashpage