본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 새로운 보상 모델 접근 방식인 계층적 보상 모델(HRM)을 제안한다. HRM은 세분화 및 거친 수준에서 개별 및 연속 추론 단계를 평가하여 다단계 추론의 일관성을 효과적으로 파악한다. 또한, 훈련 데이터 생성 비용을 줄이기 위해 계층적 노드 압축(HNC)이라는 경량 데이터 증강 전략을 도입하여 MCTS 생성 추론 궤적에 적용, HRM 훈련 데이터의 다양성과 견고성을 향상시킨다. 실험 결과는 HRM이 기존의 PRM보다 더 안정적이고 신뢰할 수 있는 평가를 제공하며, MATH500 및 GSM8K 데이터셋에 대한 교차 도메인 평가를 통해 다양한 추론 작업에 대한 강한 일반화 및 견고성을 입증한다.