Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CAPO: Towards Enhancing LLM Reasoning through Generative Credit Assignment

Created by
  • Haebom

저자

Guofu Xie, Yunsheng Shi, Hongtao Tian, Ting Yao, Xiao Zhang

개요

본 논문은 규칙 기반 이진 피드백을 사용하는 RLVR(Reinforcement Learning with Verifiable Rewards)의 문제점을 해결하기 위해 제안된 새로운 방법인 CAPO(Credit Assignment Policy Optimization)에 대해 설명한다. CAPO는 off-the-shelf LLM을 Generative Process Reward Model (LLM-as-GenPRM)로 활용하여 각 단계의 정답 여부에 따라 토큰 수준의 크레딧을 생성하고, 투표 메커니즘을 통해 정확성과 견고성을 높인다. 실험 결과, CAPO는 다양한 LLM 백본에서 기존 방법들을 능가하는 성능을 보였으며, 정확한 추론 경로 학습을 지원하는 것으로 나타났다.

시사점, 한계점

시사점:
LLM-as-GenPRM을 활용하여 간단하고 효율적인 토큰 레벨 크레딧 할당 가능
별도의 모델 훈련 없이 일반적인 LLM으로 성능 향상
다양한 수학 및 out-of-domain 벤치마크에서 우수한 성능
정확한 추론 경로 학습 지원
한계점:
논문에서 구체적인 한계점은 언급되지 않음 (Abstract 내용 기반)
👍