본 논문은 수학 문제 해결 과정에서 언어 모델의 오류를 자동으로 식별하는 문제에 초점을 맞추고 있습니다. 경시대회 수준의 수학 문제 3,400개를 포함하는 새로운 벤치마크 데이터셋 ProcessBench를 제시합니다. 각 문제는 단계별 풀이와 함께 전문가에 의해 오류 위치가 주석 처리되어 있습니다. ProcessBench를 사용하여 프로세스 보상 모델(PRM)과 비평 모델(일반 언어 모델에 단계별 비평을 프롬프트로 주는 모델) 두 가지 유형의 모델을 평가합니다. 평가 결과, 기존 PRM은 GSM8K 및 MATH보다 어려운 수학 문제에 일반화하는 데 어려움을 겪고 있으며, 비평 모델 및 PRM800K 데이터셋으로 미세 조정된 PRM보다 성능이 낮은 것으로 나타났습니다. 오픈 소스 모델 중 QwQ-32B-Preview가 GPT-4o와 비슷한 비평 능력을 보였지만, 추론 전문 모델인 o1-mini에는 뒤쳐지는 것으로 나타났습니다. ProcessBench는 언어 모델의 확장 가능한 감독을 위한 길을 열어 줄 수학 추론 과정 평가 분야의 미래 연구를 촉진할 것으로 기대됩니다.
시사점, 한계점
•
시사점:
◦
수학 추론 과정에서의 오류 식별을 위한 새로운 벤치마크 데이터셋 ProcessBench 제시