본 논문은 규칙 기반 이진 피드백을 사용하는 RLVR(Reinforcement Learning with Verifiable Rewards)의 문제점을 해결하기 위해 제안된 새로운 방법인 CAPO(Credit Assignment Policy Optimization)에 대해 설명한다. CAPO는 off-the-shelf LLM을 Generative Process Reward Model (LLM-as-GenPRM)로 활용하여 각 단계의 정답 여부에 따라 토큰 수준의 크레딧을 생성하고, 투표 메커니즘을 통해 정확성과 견고성을 높인다. 실험 결과, CAPO는 다양한 LLM 백본에서 기존 방법들을 능가하는 성능을 보였으며, 정확한 추론 경로 학습을 지원하는 것으로 나타났다.