본 논문은 복잡한 추론 및 의사결정 과정에서 중간 단계의 중요성을 강조하는 과정 수준 보상 모델(PRMs)의 평가를 위한 새로운 벤치마크, PRMBench를 제시합니다. 기존 벤치마크가 단계별 정확성에만 초점을 맞춘 것과 달리, PRMBench는 다양한 암묵적 오류 유형을 감지하는 PRMs의 미묘한 능력을 체계적으로 평가하기 위해 6,216개의 문제와 83,456개의 단계별 레이블을 포함합니다. 오픈소스 PRMs와 비평가 모델로 프롬프트된 클로즈드소스 대규모 언어 모델 등 15개 모델에 대한 실험 결과, 현재 PRMs의 상당한 약점을 발견하여 과정 수준 평가의 어려움과 향후 연구 방향을 제시합니다.