본 논문은 인간 피드백 강화 학습(RLHF)의 성공이 보상 모델의 질에 크게 의존한다는 점을 바탕으로, 보상 모델의 정확성만으로는 효과적인 교사 역할을 충분히 평가할 수 없다는 문제를 제기합니다. 연구진은 최적화 관점에서 이 문제를 해결하기 위해, 보상 모델의 정확성과 관계없이 낮은 보상 분산을 유발하는 경우 RLHF 목적 함수가 평평한 지형을 가지게 되어 최적화 속도가 매우 느려지고, 더 낮은 정확도를 가지더라도 높은 보상 분산을 유발하는 모델보다 성능이 떨어질 수 있음을 증명합니다. 또한, 특정 언어 모델에 효과적인 보상 모델이 다른 언어 모델에서는 낮은 보상 분산을 유발하여 평평한 목적 함수 지형을 만들 수 있음을 보입니다. 80억 매개변수 모델을 사용한 실험을 통해 보상 분산, 정확도, 보상 최대화 속도 간의 상호 작용을 보여주며, 보상 모델은 정확성 외에도 효율적인 최적화를 위해 충분한 분산을 유발해야 함을 강조합니다.