Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ProcessBench: Identifying Process Errors in Mathematical Reasoning

Created by
  • Haebom

저자

Chujie Zheng, Zhenru Zhang, Beichen Zhang, Runji Lin, Keming Lu, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin

개요

본 논문은 수학 문제 해결 과정에서 언어 모델의 오류를 자동으로 식별하는 문제에 초점을 맞추고 있습니다. 경시대회 수준의 수학 문제 3,400개를 포함하는 새로운 벤치마크 데이터셋 ProcessBench를 제시합니다. 각 문제는 단계별 풀이와 함께 전문가에 의해 오류 위치가 주석 처리되어 있습니다. ProcessBench를 사용하여 프로세스 보상 모델(PRM)과 비평 모델(일반 언어 모델에 단계별 비평을 프롬프트로 주는 모델) 두 가지 유형의 모델을 평가합니다. 평가 결과, 기존 PRM은 GSM8K 및 MATH보다 어려운 수학 문제에 일반화하는 데 어려움을 겪고 있으며, 비평 모델 및 PRM800K 데이터셋으로 미세 조정된 PRM보다 성능이 낮은 것으로 나타났습니다. 오픈 소스 모델 중 QwQ-32B-Preview가 GPT-4o와 비슷한 비평 능력을 보였지만, 추론 전문 모델인 o1-mini에는 뒤쳐지는 것으로 나타났습니다. ProcessBench는 언어 모델의 확장 가능한 감독을 위한 길을 열어 줄 수학 추론 과정 평가 분야의 미래 연구를 촉진할 것으로 기대됩니다.

시사점, 한계점

시사점:
수학 추론 과정에서의 오류 식별을 위한 새로운 벤치마크 데이터셋 ProcessBench 제시
PRM과 비평 모델의 성능 비교를 통한 모델 성능 분석 및 개선 방향 제시
오픈 소스 모델의 경쟁력 확인 및 향후 발전 가능성 제시
언어 모델의 확장 가능한 감독을 위한 새로운 연구 방향 제시
한계점:
ProcessBench 데이터셋의 규모 및 문제 유형의 다양성에 대한 추가적인 연구 필요
PRM의 일반화 성능 향상을 위한 추가적인 연구 필요
오픈 소스 모델과 독점 모델 간의 성능 차이 원인 분석 및 개선 방안 필요
👍