Sign In

Advantage Shaping as Surrogate Reward Maximization: Unifying Pass@K Policy Gradients

Created by
  • Haebom
Category
Empty

저자

Christos Thrampoulidis, Sadegh Mahdavi, Wenlong Deng

개요

본 논문은 검증 가능한 보상을 사용하는 강화 학습에서 Pass@K 목표를 위한 정책 기울기 최적화에 대한 두 가지 겉보기에는 다른 접근 방식, 즉 (1) 직접적인 REINFORCE 스타일 방법과 (2) GRPO를 직접 수정하는 어드밴티지-쉐이핑 기술을 조화시킨다. 이들은 같은 동전의 양면임을 보여준다. 기존 어드밴티지-쉐이핑 알고리즘을 역설계하여, 이들이 암묵적으로 대리 보상을 최적화함을 밝힌다. 특히, GRPO에 대한 실용적인 "어려운 예제 가중치 부여" 수정을 보상 수준 정규화로 해석한다. 반대로, 대리 보상 목표에서 시작하여 기존 및 새로운 어드밴티지-쉐이핑 방법을 도출하기 위한 간단한 레시피를 제공한다. 이 관점은 Pass@K라는 원래 동기를 넘어 RLVR 정책 기울기 최적화를 위한 렌즈를 제공한다.

시사점, 한계점

시사점:
REINFORCE 스타일 방법과 어드밴티지-쉐이핑 기술이 Pass@K 목표를 위한 정책 기울기 최적화에서 동일한 결과를 낸다는 것을 보여준다.
어드밴티지-쉐이핑 알고리즘이 암묵적으로 대리 보상을 최적화함을 밝혀냈다.
"어려운 예제 가중치 부여"를 보상 수준 정규화로 해석하여 GRPO의 실용적인 수정에 대한 새로운 관점을 제시한다.
대리 보상 목표에서 시작하여 새로운 어드밴티지-쉐이핑 방법을 도출하는 레시피를 제공한다.
Pass@K를 넘어 RLVR 정책 기울기 최적화를 위한 렌즈를 제공한다.
한계점:
논문 자체의 구체적인 한계점은 명시되지 않음.
👍