Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ProcessBench: Identifying Process Errors in Mathematical Reasoning

Created by
  • Haebom

저자

Chujie Zheng, Zhenru Zhang, Beichen Zhang, Runji Lin, Keming Lu, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin

개요

본 논문은 수학 문제 해결 과정에서 언어 모델의 오류를 자동으로 식별하는 능력을 측정하기 위한 새로운 벤치마크인 ProcessBench를 제시한다. ProcessBench는 주로 경시대회 수준의 수학 문제 3,400개의 단계별 풀이 과정과 오류 위치 정보를 포함한다. 모델은 오류가 포함된 가장 빠른 단계를 식별하거나 모든 단계가 정확하다고 결론 내려야 한다. 논문에서는 ProcessBench를 사용하여 두 가지 유형의 모델(Process Reward Models, PRMs 및 비평 모델)을 광범위하게 평가한다. 평가 결과, 기존 PRMs는 GSM8K 및 MATH를 넘어서는 어려운 수학 문제에 일반화하는 데 어려움을 겪고 있으며, 비평 모델(즉, 프롬프트를 사용한 일반적인 언어 모델)과 PRM800K 데이터셋에서 미세 조정된 PRM보다 성능이 떨어진다는 것을 발견했다. 또한, 오픈소스 모델인 QwQ-32B-Preview가 독점 모델인 GPT-4o와 비슷한 수준의 비평 능력을 보여주었지만, 추론 전문 모델인 o1-mini에는 여전히 뒤처진다는 것을 확인했다. ProcessBench는 언어 모델의 확장 가능한 감독을 위한 길을 열어주는 추론 과정 평가에 대한 미래 연구를 촉진할 것으로 기대된다.

시사점, 한계점

시사점:
수학 문제 해결 과정에서의 오류 식별을 위한 새로운 벤치마크인 ProcessBench를 제시.
기존 PRMs의 한계와 비평 모델의 효용성을 실험적으로 증명.
오픈소스 모델의 경쟁력을 보여주는 사례 제시.
언어 모델의 추론 과정 평가 및 확장 가능한 감독 연구에 기여.
한계점:
ProcessBench가 경시대회 수준 문제에 집중되어 있어, 다른 유형의 수학 문제에 대한 일반화 성능은 추가 연구가 필요.
현재 최고 성능 모델조차도 추론 전문 모델에 비해 성능이 낮다는 점.
평가에 사용된 모델의 다양성을 더욱 확장할 필요성.
👍