본 논문은 인간 피드백을 통한 강화 학습(RLHF)에서 언어 모델(LM)을 훈련할 때 발생하는 과적합 문제를 다룹니다. RLHF는 LM이 복잡한 인간 선호도를 따르도록 훈련하는 방법으로, 감독식 미세 조정으로 LM을 먼저 훈련하고, 응답 쌍을 샘플링하여 인간 피드백을 얻은 후, 이 데이터를 사용하여 보상 모델(RM)을 훈련합니다. 그런 다음 RL 방법을 사용하여 RM이 제공하는 보상을 극대화하도록 LM을 훈련합니다. 훈련이 진행됨에 따라 LM이 생성하는 응답은 RM 훈련 중에 본 응답과 달라지며, 이로 인해 RM이 부정확해지는 과적합 문제가 발생합니다. 본 논문은 이 과적합 문제를 분포 이동 관점에서 조사하여, 이 이동이 RM 매개변수의 불일치 추정 및 정책 경사의 불일치 추정으로 이어짐을 보여줍니다. 이를 해결하기 위해, 중요도 가중치를 사용하여 RM을 반복적으로 오프-폴리시 수정하는 Off-Policy Corrected Reward Modeling (OCRM)을 제안합니다. OCRM은 새로운 레이블이나 샘플 없이도 더 정확한 RM을 생성하며, 실험적으로 향상된 최종 정책으로 이어짐을 보여줍니다. 요약 및 챗봇 데이터셋을 이용한 실험을 통해 기존 RLHF 방법 및 기준선보다 성능이 크게 향상됨을 검증하고, 구현 코드를 공개합니다.