본 논문은 다양한 추론 패턴 하에서의 과정 보상 모델(PRMs)의 체계적인 평가를 위한 새로운 벤치마크인 Socratic-PRMBench를 제안합니다. 장기적인 의사결정을 하는 LLM 에이전트와 같은 복잡한 추론 및 문제 해결 과제에서 각 중간 추론 단계의 정확성을 검증하는 데 PRMs가 중요하지만, 기존 벤치마크는 단계별 정확성에만 초점을 맞추고 다양한 추론 패턴 하에서의 PRMs 평가는 부족했습니다. Socratic-PRMBench는 변환, 분해, 재수집, 연역, 검증, 통합 등 6가지 추론 패턴 내 결함이 있는 2995개의 추론 경로를 포함하며, 다양한 추론 패턴 하에서 PRMs의 체계적인 평가를 위한 포괄적인 테스트베드 역할을 합니다. 실험을 통해 기존 PRMs의 다양한 추론 패턴에 대한 평가 능력의 부족을 확인하고, 향후 PRMs 개발에 기여할 것을 기대합니다.