Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Advantage Shaping as Surrogate Reward Maximization: Unifying Pass@K Policy Gradients

Created by
  • Haebom
Category
Empty

저자

Christos Thrampoulidis, Sadegh Mahdavi, Wenlong Deng

개요

본 논문은 검증 가능한 보상이 있는 강화 학습에서 Pass@K 목표를 위한 정책 기울기 최적화에 대한 두 가지 겉보기에는 다른 접근 방식, 즉 (1) 직접적인 REINFORCE 스타일 방법과 (2) GRPO를 직접 수정하는 장점 형상화 기법을 조화시킨다. 이는 동일한 동전의 양면임을 보여준다. 기존의 장점 형상화 알고리즘을 역설계하여, 이들이 암묵적으로 대리 보상을 최적화한다는 것을 밝힌다. 특히, GRPO에 대한 실용적인 "어려운 예제 가중치 부여" 수정을 보상 수준의 정규화로 해석한다. 반대로, 대리 보상 목표에서 시작하여 기존 및 새로운 장점 형상화 방법을 도출하기 위한 간단한 레시피를 제공한다. 이러한 관점은 Pass@K라는 원래 동기를 넘어 RLVR 정책 기울기 최적화를 위한 렌즈를 제공한다.

시사점, 한계점

시사점:
REINFORCE 스타일 방법과 장점 형상화 기법이 동일한 목표를 위한 서로 다른 접근 방식임을 밝힘.
장점 형상화 기법이 암묵적으로 대리 보상을 최적화한다는 것을 보여줌.
GRPO에 대한 "어려운 예제 가중치 부여" 수정을 보상 수준의 정규화로 해석.
기존 및 새로운 장점 형상화 방법을 도출하기 위한 레시피 제공.
Pass@K를 넘어 RLVR 정책 기울기 최적화에 대한 새로운 관점 제시.
한계점:
논문에 구체적인 한계점에 대한 언급은 없음.
👍