본 논문은 인간 피드백 기반 강화 학습(RLHF)에서 보상 모델링의 핵심 요소인 기반 모델 선택이 보상 모델 성능에 미치는 영향을 체계적으로 분석합니다. 급증하는 대규모 언어 모델(LLM)들 중에서 기반 모델을 선택하는 어려움을 고려하여, 다양한 기반 모델을 사용한 보상 모델 학습 결과를 비교 분석합니다. 기존의 일반적인 기반 모델 선택 방식보다 최대 14% 성능 향상을 보였으며, 기존 벤치마크와 후속 성능 간의 강한 통계적 상관관계를 제시합니다. 또한, 소규모 벤치마크 결과를 결합하여 모델 선택을 개선하고(상위 5-10개 모델에서 평균 18% 향상), 학습 후 과정이 최종 성능에 미치는 영향을 보여주며, 예측된 데이터 분포를 활용하여 성능 예측 오류를 줄이는 방법을 탐구합니다.