Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence

Created by
  • Haebom

저자

Yuliang Liu, Junjie Lu, Zhaoling Chen, Chaofeng Qu, Jason Klein Liu, Chonghan Liu, Zefan Cai, Yunhui Xia, Li Zhao, Jiang Bian, Chuheng Zhang, Wei Shen, Zhouhan Lin

개요

본 논문은 기존 Process Reward Model (PRM) 학습 방식의 한계점을 지적하며, 규칙 기반의 단계 분할 대신 모델의 다음 단어 예측 신뢰도에 기반한 적응적 단계 분할 방법인 AdaptiveStep을 제안합니다. AdaptiveStep은 수동 주석 없이도 추론 단계를 효과적으로 나누어 각 단계에서 더 많은 의사결정 정보를 제공함으로써 보상 모델 학습을 향상시킵니다. 수학적 추론 및 코드 생성 작업에서 AdaptiveStep으로 학습된 PRM의 실험 결과, 최첨단 Best-of-N 성능을 달성하고 기존 오픈소스 PRM 대비 구축 비용을 30% 이상 절감하는 것을 보여줍니다. 또한 PRM의 성능, 전이성 및 일반화 능력에 대한 철저한 분석과 사례 연구를 제공합니다.

시사점, 한계점

시사점:
모델의 신뢰도 기반 적응적 단계 분할을 통해 PRM 학습 효율 및 성능 향상 가능성 제시.
수동 주석이 필요 없는 효율적인 PRM 학습 방법 제안.
Best-of-N 성능 향상 및 구축 비용 절감을 통한 실용성 증명.
수학적 추론 및 코드 생성 등 다양한 작업에 적용 가능성 확인.
한계점:
AdaptiveStep의 신뢰도 기준 설정에 대한 추가적인 연구 필요.
다양한 작업 및 모델에 대한 일반화 성능 검증 필요.
특정 작업에 대한 최적화된 신뢰도 기준 설정 방법에 대한 추가 연구 필요.
👍