본 논문은 대규모 언어 모델(LLM)을 인간의 선호도에 맞추기 위한 강화 학습(RL)에서 필수적인 보상 모델링에 초점을 맞추고 있습니다. 정확한 보상 신호를 제공하기 위해, 보상 모델(RM)은 점수나 판단을 내리기 전에 심층적인 사고와 해석 가능한 추론을 수행해야 합니다. 논문에서는 장황한 사고 과정(CoT)의 최근 발전에서 영감을 얻어, 추론 능력을 보상 모델링에 통합하면 RM의 해석력과 성능이 크게 향상될 것이라는 가설을 제시하고 검증합니다. 이를 위해, 보상 모델링을 추론 작업으로 공식화하는 새로운 유형의 생성적 보상 모델인 추론 보상 모델(ReasRMs)을 제안합니다. 추론 중심의 훈련 파이프라인을 제안하고, 샘플 수준의 채팅 루브릭이나 수학/코드 솔루션을 자체 생성하고 후보 응답을 이에 대해 평가하는 체인-오브-루브릭(CoR) 메커니즘을 특징으로 하는 ReasRM 계열 모델인 RM-R1을 훈련시킵니다. RM-R1의 훈련은 고품질 추론 체인의 증류와 검증 가능한 보상을 사용한 강화 학습의 두 가지 주요 단계로 구성됩니다. 실험 결과, 제안된 모델은 세 가지 보상 모델 벤치마크에서 평균적으로 최첨단 성능을 달성하며, 훨씬 더 큰 오픈 가중치 모델(예: INF-ORM-Llama3.1-70B) 및 독점 모델(예: GPT-4o)보다 최대 4.9%까지 성능이 뛰어납니다. 최종 성능 외에도, 성공적인 ReasRM 훈련의 주요 요소를 이해하기 위한 철저한 실험 분석을 수행합니다. 향후 연구를 촉진하기 위해, 코드와 데이터와 함께 여섯 개의 ReasRM 모델을 https://github.com/RM-R1-UIUC/RM-R1 에서 공개합니다.