본 논문은 인간 피드백으로부터 강화 학습(RLHF)에서 보상 모델(RMs)의 역할과 기존 보상 모델 벤치마크의 한계점을 다룹니다. 기존 벤치마크는 최적화된 정책의 성능과 약한 상관관계를 보이는데, 이는 보상 모델이 RM의 실제 능력을 정확하게 평가하지 못함을 시사합니다. 따라서 본 논문에서는 보상 과최적화(reward overoptimization)라는 렌즈를 통해 여러 평가 설계를 탐구하여 보상 모델의 정확한 평가 방법을 제시합니다. 보상 과최적화는 보상 모델이 인간 선호도와 얼마나 잘 정렬되는지, 그리고 정책에 제공하는 학습 신호의 역학을 모두 포착하는 현상입니다. 연구 결과, 신뢰할 수 있는 벤치마크를 구성하기 위한 세 가지 주요 발견(i) 정답 여부를 넘어 선택된 응답과 기각된 응답 간의 차이를 최소화하는 것이 중요하다, (ii) 보상 모델을 평가하려면 다양한 선택 및 기각된 응답에 대한 여러 비교가 필요하다, (iii) 보상 모델은 다양한 표현을 가진 응답을 접하므로 응답은 다양한 모델에서 가져와야 한다)을 제시합니다. 하지만 과최적화 정도와의 매우 높은 상관관계는 특정 downstream 성능과의 상관관계를 상대적으로 낮추는 것을 관찰했습니다. 따라서 벤치마크를 설계할 때 과최적화 정도를 최종 목표가 아닌 유용한 도구로 사용하는 것이 바람직합니다.