본 논문은 인간 피드백으로부터 강화 학습(RLHF)에서 반복되는 과적합 문제에 대한 최초의 종합적인 연구를 제시합니다. RLHF는 대규모 언어 모델을 인간의 선호도에 맞추는 데 널리 사용되는 방법이지만, 보상 모델 과적합으로 인해 일반화되지 않는 정책이 생성되는 문제가 있습니다. 이를 완화하기 위해 보상 모델을 반복적으로 재훈련하고 정책을 재최적화하는 반복 RLHF가 사용되지만, 이 과정에서의 과적합 역학은 잘 이해되지 않았습니다. 본 연구는 AlpacaFarm 벤치마크를 사용하여 보상 모델 훈련 데이터 전송 방식, 최적화에 사용되는 보상 함수, 정책 초기화 방식 등 주요 설계 선택에 대한 체계적인 분석을 수행합니다. 그 결과, 반복적인 과정을 거치면서 보상 모델이 실제 선호도에 점점 근접함에 따라 과적합은 감소하는 경향을 보이지만, 성능 향상은 시간이 지남에 따라 감소하고, 기본 정책에서 재초기화하는 것이 안정적이지만 최적화 유연성을 제한한다는 것을 발견하였습니다. 다른 초기화 전략은 초기 과적합에서 회복하지 못하는 경우가 많습니다. 본 연구는 더 안정적이고 일반화 가능한 RLHF 파이프라인을 구축하기 위한 실행 가능한 통찰력을 제공합니다.