본 논문은 LLM의 추론 능력을 향상시키기 위해 규칙 기반 이진 피드백을 사용하는 RLVR(Reinforcement Learning with Verifiable Rewards)의 한계를 극복하고자 합니다. 기존 RLVR 방법론은 모든 토큰에 동일한 보상을 할당하여 정밀한 신용 할당을 방해하고, PPO와 같은 가치 추정 기반 방법은 부정확하고 검증 불가능한 신호를 생성합니다. 프로세스 보상 모델은 단계별 보상을 제공하지만, 고품질 감독 레이블의 필요성, 확률적 보상 모델링으로 인한 신뢰성 문제, 온라인 RL 적용의 시간 소모성과 같은 한계를 지닙니다. 이러한 문제를 해결하기 위해, 본 논문은 'Credit Assignment Policy Optimization (CAPO)'라는 간단하지만 효율적인 방법을 제시합니다. CAPO는 별도의 보조 모델을 학습하는 대신, 범용 LLM을 'Generative Process Reward Model (LLM-as-GenPRM)'으로 활용하여 각 단계의 정확성을 기반으로 한 번의 패스로 단계별 비평을 생성하고, 동일한 규칙 기반 보상을 받은 토큰에 결정론적 토큰 레벨 신용을 제공합니다. 정확성과 견고성을 높이기 위해, 생성된 비평 수에 따라 확장되는 투표 메커니즘을 사용합니다. Llama 및 Qwen 모델과 같은 다양한 백본에 대한 광범위한 실험 결과, CAPO는 네 가지 어려운 수학적 벤치마크와 세 가지 도메인 외부 벤치마크에서 감독 학습 기반 및 RL 기반 미세 조정 방법론을 일관되게 능가하는 성능을 보였습니다.