Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CAPO: Towards Enhancing LLM Reasoning through Generative Credit Assignment

Created by
  • Haebom

저자

Guofu Xie, Yunsheng Shi, Hongtao Tian, Ting Yao, Xiao Zhang

Reinforcement Learning with Verifiable Rewards

개요

본 논문은 LLM의 추론 능력을 향상시키기 위해 규칙 기반 이진 피드백을 사용하는 RLVR(Reinforcement Learning with Verifiable Rewards)의 한계를 극복하고자 합니다. 기존 RLVR 방법론은 모든 토큰에 동일한 보상을 할당하여 정밀한 신용 할당을 방해하고, PPO와 같은 가치 추정 기반 방법은 부정확하고 검증 불가능한 신호를 생성합니다. 프로세스 보상 모델은 단계별 보상을 제공하지만, 고품질 감독 레이블의 필요성, 확률적 보상 모델링으로 인한 신뢰성 문제, 온라인 RL 적용의 시간 소모성과 같은 한계를 지닙니다. 이러한 문제를 해결하기 위해, 본 논문은 'Credit Assignment Policy Optimization (CAPO)'라는 간단하지만 효율적인 방법을 제시합니다. CAPO는 별도의 보조 모델을 학습하는 대신, 범용 LLM을 'Generative Process Reward Model (LLM-as-GenPRM)'으로 활용하여 각 단계의 정확성을 기반으로 한 번의 패스로 단계별 비평을 생성하고, 동일한 규칙 기반 보상을 받은 토큰에 결정론적 토큰 레벨 신용을 제공합니다. 정확성과 견고성을 높이기 위해, 생성된 비평 수에 따라 확장되는 투표 메커니즘을 사용합니다. Llama 및 Qwen 모델과 같은 다양한 백본에 대한 광범위한 실험 결과, CAPO는 네 가지 어려운 수학적 벤치마크와 세 가지 도메인 외부 벤치마크에서 감독 학습 기반 및 RL 기반 미세 조정 방법론을 일관되게 능가하는 성능을 보였습니다.

시사점, 한계점

시사점:
LLM을 Generative Process Reward Model로 직접 활용하여 step-wise, token-level feedback 제공.
별도의 보조 모델 학습 불필요.
다양한 벤치마크에서 SOTA 달성.
정확한 추론 경로 학습 촉진.
한계점:
논문에 구체적인 한계점 언급 없음.
👍