본 논문은 강화학습(RL) 에이전트의 내재적 동기 부여 및 보상 형성에 대한 이론적 모델을 제시한다. 가짜 보상(pseudo-rewards)을 추가하여 유용한 돌발 행동을 유도할 수 있지만, TV 화면 고정과 같은 역효과를 유발할 수 있다는 점을 지적한다. Bayes-Adaptive Markov Decision Processes (BAMDPs)를 사용하여 모든 가짜 보상을 보상 형성으로 특징짓고, MDP에서의 학습 문제를 에이전트의 지식에 대한 MDP로 공식화한다. 최적 탐색은 BAMDP 상태 값을 극대화하며, 이를 정보 수집 가치와 물리적 상태의 사전 가치로 분해한다. 가짜 보상은 이러한 가치 구성 요소를 증가시키는 행동에 보상을 제공하지만, 실제 가치와 잘 맞지 않을 때 탐색을 방해한다. 잠재력 기반 형성 이론을 확장하여 BAMDP Potential-based shaping Functions (BAMPFs)가 메타-RL에서 보상 해킹(실제 보상을 해치면서 복합 보상을 극대화하는 행동으로의 수렴)에 면역임을 증명하고, BAMPF가 Bernoulli Bandit 도메인에 대한 최적 RL 알고리즘을 학습하는 데 어떻게 도움이 되는지 실험적으로 보여준다. 마지막으로, 경계가 있는 단조 증가 잠재력을 가진 BAMPF가 일반 RL 설정에서도 보상 해킹에 저항한다는 것을 증명한다. 이러한 형태로 새로운 가짜 보상 항을 쉽게 개조하거나 설계할 수 있으며, Mountain Car 환경에서 실험적 증명을 제공한다.