본 논문은 강화 학습(RL)을 통해 수학 문제 해결 능력을 향상시킨 대규모 언어 모델(LLM) DeepSeek-R1을 바탕으로, RL 훈련과 과정 보상 모델(PRM)의 관계를 체계적으로 조사합니다. 기존의 상식과 달리, 순수 RL 훈련만으로도 PRM 통합 없이 추론 능력을 향상시킬 수 있음을 보여줍니다. 연구 결과, 문제 해결 능력과 과정 감독 능력은 순수 RL 훈련 중 상호 보완적으로 발전하는 추론의 상호 보완적인 측면임을 밝힙니다. 기존 PRM은 DeepSeek-R1 및 QwQ-32B와 같은 최첨단 모델에 적용될 경우 다수결 투표와 같은 간단한 기준선보다 성능이 떨어짐을 확인하고, 이를 해결하기 위해 모델이 자체적으로 생성된 솔루션을 평가하고 재순위 지정하는 자기 반성적 프레임워크인 Self-PRM을 제안합니다. Self-PRM은 특히 큰 샘플 크기에서 벤치마크 정확도를 향상시키지만, 어려운 문제에 대해서는 정밀도가 낮고 잘못된 솔루션을 올바른 것으로 잘못 분류하는 한계점을 보입니다. 결론적으로, 순수 RL은 문제 해결 능력 향상뿐만 아니라 강력한 PRM 능력을 자체적으로 촉진하므로, 복잡한 추론 향상에 PRM이 필수적이지 않을 수 있음을 시사합니다.