본 논문은 강화학습에서 희소 보상 문제를 해결하기 위한 자가 적응형 보상 형성 기법을 제시한다. 기존 경험에서 도출된 성공률을 형성된 보상으로 활용하며, 베타 분포를 이용하여 성공률을 표현하여 불확실성에서 신뢰도 높은 값으로 동적으로 진화하도록 한다. 초기에는 탐험을 장려하기 위해 보상에 더 많은 무작위성을 부여하고, 시간이 지남에 따라 확실성이 증가하여 착취를 강화함으로써 탐험과 착취의 균형을 자연스럽게 맞춘다. 고차원 연속 상태 공간에 대해 계산 효율적인 비모수적이고 학습이 필요없는 해결책을 제공하기 위해 커널 밀도 추정(KDE)과 랜덤 푸리에 특징(RFF)을 결합하여 베타 분포를 도출한다. 매우 희소한 보상을 가진 다양한 작업에서 유의미한 표본 효율 및 수렴 안정성 향상을 보여준다.