본 논문은 검증 가능한 보상을 사용하는 강화 학습에서 Pass@K 목표를 위한 정책 기울기 최적화에 대한 두 가지 겉보기에는 다른 접근 방식, 즉 (1) 직접적인 REINFORCE 스타일 방법과 (2) GRPO를 직접 수정하는 어드밴티지-쉐이핑 기술을 조화시킨다. 이들은 같은 동전의 양면임을 보여준다. 기존 어드밴티지-쉐이핑 알고리즘을 역설계하여, 이들이 암묵적으로 대리 보상을 최적화함을 밝힌다. 특히, GRPO에 대한 실용적인 "어려운 예제 가중치 부여" 수정을 보상 수준 정규화로 해석한다. 반대로, 대리 보상 목표에서 시작하여 기존 및 새로운 어드밴티지-쉐이핑 방법을 도출하기 위한 간단한 레시피를 제공한다. 이 관점은 Pass@K라는 원래 동기를 넘어 RLVR 정책 기울기 최적화를 위한 렌즈를 제공한다.