본 논문은 수학 문제 해결 과정에서 언어 모델의 오류를 자동으로 식별하는 능력을 측정하기 위한 새로운 벤치마크인 ProcessBench를 제시한다. ProcessBench는 주로 경시대회 수준의 수학 문제 3,400개의 단계별 풀이 과정과 오류 위치 정보를 포함한다. 모델은 오류가 포함된 가장 빠른 단계를 식별하거나 모든 단계가 정확하다고 결론 내려야 한다. 논문에서는 ProcessBench를 사용하여 두 가지 유형의 모델(Process Reward Models, PRMs 및 비평 모델)을 광범위하게 평가한다. 평가 결과, 기존 PRMs는 GSM8K 및 MATH를 넘어서는 어려운 수학 문제에 일반화하는 데 어려움을 겪고 있으며, 비평 모델(즉, 프롬프트를 사용한 일반적인 언어 모델)과 PRM800K 데이터셋에서 미세 조정된 PRM보다 성능이 떨어진다는 것을 발견했다. 또한, 오픈소스 모델인 QwQ-32B-Preview가 독점 모델인 GPT-4o와 비슷한 수준의 비평 능력을 보여주었지만, 추론 전문 모델인 o1-mini에는 여전히 뒤처진다는 것을 확인했다. ProcessBench는 언어 모델의 확장 가능한 감독을 위한 길을 열어주는 추론 과정 평가에 대한 미래 연구를 촉진할 것으로 기대된다.