본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 효율적인 보상 모델(RM) 미세조정 방법을 제시합니다. 기존 RLHF(Reinforcement Learning from Human Feedback) 방식의 한계인 고품질 선호도 데이터 부족 문제를 해결하기 위해, 공개된 고품질 소스 코드에서 대량의 합성 코드-선호도 쌍을 활용하는 확장 가능한 선호도 모델 사전 학습(PMP, Preference Model Pretraining) 파이프라인인 CodePMP를 제안합니다. CodePMP는 대규모 합성 코드-선호도 쌍으로 선호도 모델을 사전 학습하여 RM 미세조정 효율을 향상시키고, 수학적 추론 및 논리적 추론 과제에서 LLM의 추론 성능을 향상시키는 것을 실험적으로 보여줍니다.