AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence
Created by
Haebom
저자
Yuliang Liu, Junjie Lu, Zhaoling Chen, Chaofeng Qu, Jason Klein Liu, Chonghan Liu, Zefan Cai, Yunhui Xia, Li Zhao, Jiang Bian, Chuheng Zhang, Wei Shen, Zhouhan Lin
개요
본 논문은 기존 Process Reward Model (PRM) 학습 방식의 한계점을 지적하며, 규칙 기반의 단계 분할 대신 모델의 다음 단어 예측 신뢰도에 기반한 적응적 단계 분할 방법인 AdaptiveStep을 제안합니다. AdaptiveStep은 수동 주석 없이도 추론 단계를 효과적으로 나누어 각 단계에서 더 많은 의사결정 정보를 제공함으로써 보상 모델 학습을 향상시킵니다. 수학적 추론 및 코드 생성 작업에서 AdaptiveStep으로 학습된 PRM의 실험 결과, 최첨단 Best-of-N 성능을 달성하고 기존 오픈소스 PRM 대비 구축 비용을 30% 이상 절감하는 것을 보여줍니다. 또한 PRM의 성능, 전이성 및 일반화 능력에 대한 철저한 분석과 사례 연구를 제공합니다.
시사점, 한계점
•
시사점:
◦
모델의 신뢰도 기반 적응적 단계 분할을 통해 PRM 학습 효율 및 성능 향상 가능성 제시.