본 논문은 복잡한 추론 및 의사결정 과정에서 각 중간 단계가 중요한 역할을 하는 과정 수준 보상 모델(PRMs)의 평가를 위한 새로운 벤치마크인 PRMBench를 제시합니다. 기존 벤치마크가 단계의 정확성에만 초점을 맞춘 것과 달리, PRMBench는 실제 시나리오에서 다양한 암시적 오류 유형을 감지하는 PRM의 미묘한 능력을 체계적으로 평가하기 위해 6,216개의 문제와 83,456개의 단계 수준 레이블을 포함합니다. 15개의 모델(오픈소스 PRM 및 비평가 모델로 프롬프트된 클로즈드소스 LLM 포함)에 대한 실험을 통해 현재 PRM의 상당한 약점을 발견하였으며, 이는 과정 수준 평가의 어려움을 강조하고 미래 연구의 주요 방향을 제시합니다. PRMBench는 PRM 평가 및 개발 연구를 발전시키는 견고한 벤치마크가 될 것으로 기대됩니다.