Muhammad Khalifa, Rishabh Agarwal, Lajanugen Logeswaran, Jaekyeom Kim, Hao Peng, Moontae Lee, Honglak Lee, Lu Wang
개요
단계별 검증기(PRMs)는 테스트 시간 확장의 핵심 요소이지만, 단계별 감독이 필요하여 훈련 비용이 많이 듭니다. 본 논문에서는 단계별 보상 모델을 구두로 표현하여 해결책의 모든 단계를 검증하는 검증 체인 오브 써트(CoT)를 생성하는 데이터 효율적인 PRM인 ThinkPRM을 제안합니다. ThinkPRM은 기존의 PRM보다 훨씬 적은 프로세스 레이블로 미세 조정되며, 긴 CoT 모델의 고유한 추론 능력을 활용하여 여러 벤치마크에서 LLM-as-a-Judge 및 차별적 검증기를 능가합니다. 특히 ProcessBench, MATH-500 및 AIME '24에서 기준 모델보다 성능이 우수하며, GPQA-Diamond 및 LiveCodeBench의 하위 집합에 대한 도메인 외 평가에서도 PRM800K로 훈련된 차별적 검증기를 능가합니다. 동일한 토큰 예산 하에서 ThinkPRM은 LLM-as-a-Judge보다 검증 계산을 더 효과적으로 확장합니다. 본 연구는 훈련을 위한 최소한의 감독만 필요하면서 테스트 시간 계산을 확장할 수 있는 생성적이고 긴 CoT PRM의 가치를 강조합니다. 코드, 데이터 및 모델은 https://github.com/mukhal/thinkprm 에서 공개됩니다.