본 논문은 대규모 언어 모델(LLM)의 수학적 추론 과정에서 중간 오류를 식별하고 완화하기 위한 접근법으로 떠오르는 프로세스 보상 모델(PRM)에 대해 다룬다. 기존 PRM의 데이터 주석 및 평가 방법론의 어려움을 지적하며, 몬테카를로(MC) 추정 기반 데이터 합성의 성능 저하 및 일반화 문제를 실험을 통해 보여준다. 또한, 기존 Best-of-N(BoN) 평가 전략의 편향성(정답은 맞지만 과정이 잘못된 응답에 대한 관용, 결과 중심 평가로의 전환)을 밝히고, MC 추정과 LLM-as-a-judge를 통합하는 합의 필터링 메커니즘과 응답 수준 및 단계 수준 지표를 결합한 포괄적인 평가 프레임워크를 제안한다. 이를 통해 모델 성능과 데이터 효율을 향상시키고, 기존 오픈소스 PRM을 능가하는 최첨단 PRM을 개발하여 공개한다.
시사점, 한계점
•
시사점:
◦
MC 추정 기반 데이터 합성의 한계를 밝히고, LLM-as-a-judge 및 인간 주석 기반 방법의 우수성을 제시하였다.
◦
기존 BoN 평가 전략의 편향성을 분석하고, 더욱 포괄적인 평가 프레임워크를 제안하였다.
◦
합의 필터링 메커니즘을 통해 PRM의 성능과 데이터 효율을 향상시켰다.
◦
최첨단 PRM을 개발하고 공개하여 향후 연구에 대한 실질적인 지침을 제공하였다.
•
한계점:
◦
제안된 합의 필터링 메커니즘의 일반성 및 다른 작업에 대한 적용 가능성에 대한 추가 연구가 필요하다.