본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위해 프로세스 보상 모델(PRM)을 그래프 추론 문제에 적용하는 연구를 제시합니다. 기존 PRM의 높은 수동 레이블링 비용 문제를 해결하기 위해, 작업 지향 경로 및 몬테카를로 트리 탐색(MCTS)을 이용하여 상세한 단계별 레이블을 생성하는 GraphSILO라는 대규모 그래프 추론 데이터셋을 구축했습니다. 이를 기반으로 그래프 추론 문제에 특화된 GraphPRM을 개발하여 추론 시간 확장 및 직접 선호도 최적화(DPO)를 통한 강화 학습 설정에서 평가했습니다. 실험 결과, GraphPRM은 13가지 그래프 추론 작업에서 Qwen2.5-7B 모델의 성능을 9% 향상시키는 등 다양한 그래프 추론 데이터셋과 수학 문제 해결과 같은 다른 추론 영역으로의 전이성을 보여주었습니다. 이는 PRM이 다양한 영역에서 추론 능력 향상에 기여할 수 있음을 시사합니다.