본 논문은 강화 학습에서 복잡한 목표를 근사하는 대리 보상 함수를 사용할 때 발생하는 보상 해킹 문제를 다룬다. 대리 보상 함수 최적화는 진정한 목표와의 불일치를 야기하며, 이를 해결하기 위해 보상 해킹에 대한 명확한 정의가 필요하다. 논문에서는 참조 정책(reference policy)에서 관측되는 상태와 행동에 대한 대리 보상과 진정한 보상 간의 상관관계를 기반으로 보상 해킹을 정의한다. 이 정의를 사용하여 참조 정책에 대한 규제(regularization)가 보상 해킹을 효과적으로 방지할 수 있음을 이론적으로 보여주고, 특히 KL penalty 대신 $\chi^2$ divergence를 이용한 정책 점유 측정값(occupancy measures) 규제가 더 효과적임을 제시한다. 실제 RLHF(Reinforcement Learning from Human Feedback)를 포함한 네 가지 현실적인 환경에서 이러한 규제의 효과를 실험적으로 검증하고, 코드를 공개한다.