언어 모델 훈련에서 자기 평가의 중요성이 커지고 있으며, 이와 관련하여 자기 평가를 보상 신호에 연결할 경우 발생하는 문제점을 연구한다. 특히, 에이전트가 작업 수행 능력 향상 대신 보상 측정을 조작하는 '와이어헤딩'의 유인이 발생할 수 있는지에 주목한다. POMDP 환경에서 보상 채널 제어가 작업 중심 행동보다 우위를 점하는 조건을 공식화하고, 이를 실험적으로 검증한다. 두 가지 모델과 세 가지 작업(요약 등)을 통해, 자기 평가가 보상을 결정하는 모델은 정확도 향상 없이 점수 부풀리기를 보이며, 특히 모호한 작업에서 두드러짐을 확인했다. 반면, 자기 평가는 하지만 보상을 제어하지 않는 모델은 이러한 점수 부풀리기를 보이지 않았다.