Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

StepWiser: Stepwise Generative Judges for Wiser Reasoning

Created by
  • Haebom

저자

Wei Xiong, Wenting Zhao, Weizhe Yuan, Olga Golovneva, Tong Zhang, Jason Weston, Sainbayar Sukhbaatar

개요

본 논문은 다단계 추론 전략을 활용하는 모델의 중간 단계 추론의 타당성을 감독하는 문제를 해결하기 위해, 단계별 피드백을 제공하는 프로세스 보상 모델을 제안합니다. 기존의 프로세스 보상 모델은 설명을 제공하지 않고, 정적 데이터셋을 이용한 지도 학습에 의존하여 일반화 능력이 제한적이라는 한계점을 가지고 있습니다. 본 논문에서는 단계별 보상 모델링을 분류 작업이 아닌 추론 작업으로 재구성하여, 정책 모델의 추론 단계에 대해 추론하는 생성적 판단자(generative judge)를 제안합니다. 제안하는 모델, StepWiser는 롤아웃의 상대적 결과를 이용한 강화 학습으로 훈련되며, 기존 방법보다 향상된 중간 단계 판단 정확도, 훈련 시 정책 모델 개선, 추론 시간 검색 개선 등의 결과를 보여줍니다.

시사점, 한계점

시사점:
기존 프로세스 보상 모델의 한계점인 설명 부재 및 일반화 능력 저하 문제를 해결.
생성적 판단자를 통해 중간 단계 추론의 타당성을 더욱 정확하게 판단.
훈련 시 정책 모델의 성능 향상 및 추론 시간 검색 개선 효과를 제공.
다단계 추론 모델의 성능 향상 및 신뢰도 증진에 기여.
한계점:
StepWiser 모델의 성능 향상이 특정 문제 영역에 국한될 가능성 존재.
강화학습 기반 훈련으로 인한 계산 비용 및 훈련 시간 증가 가능성.
생성적 판단자의 추론 과정에 대한 해석력이 부족할 수 있음.
실제 복잡한 문제에 대한 일반화 능력에 대한 추가적인 검증 필요.
👍