Sign In

An Efficient and Precise Training Data Construction Framework for Process-supervised Reward Model in Mathematical Reasoning

Created by
  • Haebom
Category
Empty

저자

Wei Sun, Qianlong Du, Fuwei Cui, Jiajun Zhang

개요

본 논문은 대규모 언어 모델(LLM)의 수학적 추론 능력 향상을 위해 기존의 비용이 많이 들거나 품질이 낮은 프로세스 감독 보상 모델(PRM) 학습 데이터 생성 방법의 한계를 극복하는 새로운 프레임워크인 EpicPRM을 제시한다. EpicPRM은 각 중간 추론 단계의 기여도를 정량화하여 주석을 달고, 적응형 이진 탐색 알고리즘을 사용하여 주석의 정확성과 효율성을 높인다. 이를 통해 5만 개의 주석이 달린 중간 단계로 구성된 고품질 프로세스 감독 학습 데이터셋 Epic50k를 효율적으로 구축한다. Epic50k로 학습된 PRM은 기존 공개 데이터셋을 사용한 PRM보다 훨씬 우수한 성능을 보인다. Epic50k는 GitHub에서 공개된다.

시사점, 한계점

시사점:
LLM의 수학적 추론 능력 향상을 위한 효율적이고 고품질의 프로세스 감독 학습 데이터셋 생성 방법 제시
기존 방법의 한계점인 높은 비용과 낮은 품질 문제 해결
Epic50k 데이터셋을 통해 LLM의 수학적 추론 성능 향상 가능성 입증
Epic50k 데이터셋 공개를 통한 연구 커뮤니티 기여
한계점:
EpicPRM의 성능이 다른 고급 PRM 생성 방법과 비교되지 않음.
Epic50k 데이터셋의 범용성 및 다양한 수학 문제 유형에 대한 일반화 성능에 대한 추가 연구 필요.
적응형 이진 탐색 알고리즘의 매개변수 최적화에 대한 자세한 설명 부족.
👍