본 논문은 인간 선호도에 맞춰 대규모 언어 모델(LLM)을 정렬하는 데 필수적인 보상 모델링, 특히 인간 피드백으로부터의 강화 학습(RLHF)에 초점을 맞춥니다. 기존 보상 모델(RM)들은 불투명한 스칼라 점수를 생성하거나 선호하는 답변의 예측을 직접 생성하여 자연어 비판을 통합하는 데 어려움을 겪고 해석력이 부족하다는 한계를 가지고 있습니다. 본 논문에서는 추론 능력을 보상 모델링에 통합하면 RM의 해석력과 성능이 크게 향상될 것이라는 가설을 세우고 검증합니다. 이를 위해 추론 기반 보상 모델(ReasRM)이라는 새로운 종류의 생성적 보상 모델을 제시하고, 추론 중심의 훈련 파이프라인을 제안하여 ReasRM 계열 모델인 RM-R1을 훈련합니다. 훈련은 고품질 추론 체인 증류와 검증 가능한 보상을 사용한 강화 학습의 두 단계로 구성됩니다. RM-R1은 자체적으로 추론 과정 또는 채팅 특정 기준을 생성하고 후보 답변을 이 기준에 따라 평가하여 LLM 결과물을 개선합니다. 실험 결과, 여러 포괄적인 보상 모델 벤치마크에서 최첨단 또는 최첨단에 가까운 성능을 달성하여 훨씬 더 큰 오픈 가중치 모델(예: Llama3.1-405B) 및 독점 모델(예: GPT-4o)보다 최대 13.8%까지 성능을 능가합니다. 또한 성공적인 ReasRM 훈련의 주요 요소를 이해하기 위한 철저한 실험 분석을 수행하고, 향후 연구를 위해 6개의 ReasRM 모델과 함께 코드 및 데이터를 공개합니다 (https://github.com/RM-R1-UIUC/RM-R1).