본 논문은 단계별 검증기(PRMs)의 데이터 효율성을 높이기 위해, 단계별 보상 모델을 언어 모델의 사고 과정(CoT) 생성을 이용하여 구현한 ThinkPRM을 제안합니다. ThinkPRM은 기존의 판별적 PRM들보다 훨씬 적은(1%) 단계별 레이블을 사용하여 학습되며, 긴 CoT 모델의 추론 능력을 활용하여 ProcessBench, MATH-500, AIME '24 등 여러 벤치마크에서 기존 방법들을 능가하는 성능을 보입니다. 특히, GPQA-Diamond와 LiveCodeBench의 일부 하위 집합에 대한 도메인 외 평가에서도 기존 PRM보다 높은 성능을 기록했습니다. 또한, 동일한 토큰 예산 하에서 LLM-as-a-Judge보다 검증 계산을 더 효율적으로 확장합니다. 결론적으로, ThinkPRM은 최소한의 감독으로 학습하면서 테스트 시간 계산을 확장할 수 있는 생성적이고 긴 CoT PRM의 가치를 보여줍니다.