본 논문은 대규모 언어 모델의 다단계 수학적 추론 과정에서 발생하는 오류를 해결하기 위해, 각 중간 단계를 감독하고 평가하는 Process-level Reward Models (PRMs)에 초점을 맞추고 있다. 기존 PRMs 학습을 위한 고품질 보상 데이터 생성의 어려움을 해결하고자, 불확실성 기반의 자동화된 PRMs 보상 데이터 생성 및 주석 프레임워크를 제안한다. 또한, 다수결 투표와 PRMs의 한계를 지적하고, 두 방법의 장점을 결합한 Hybrid Majority Reward Vote와 Weighted Reward Frequency Vote라는 두 가지 불확실성 인식 출력 집계 방법을 제시한다. ProcessBench, MATH, GSMPlus 데이터셋을 이용한 실험을 통해 제안된 프레임워크와 출력 집계 방법의 효과성과 효율성을 검증한다. 소스 코드와 데이터는 공개적으로 제공될 예정이다.