Advantage Shaping as Surrogate Reward Maximization: Unifying Pass@K Policy Gradients
Created by
Haebom
Category
Empty
저자
Christos Thrampoulidis, Sadegh Mahdavi, Wenlong Deng
💡 개요
본 논문은 강화학습에서 Pass@K 목표 달성을 위한 정책 경사 최적화 접근 방식 두 가지, 즉 직접적인 REINFORCE 스타일 방법과 GRPO를 수정하는 장점 형상화 기법이 근본적으로 동일함을 규명합니다. 기존 장점 형상화 알고리즘을 분석하여 암묵적으로 대리 보상을 최적화함을 보이고, '어려운 예제 가중치 증가'와 같은 실질적인 GRPO 수정 기법을 보상 수준의 정규화로 해석합니다.
🔑 시사점 및 한계
•
Pass@K 목표에 대한 직접적인 REINFORCE 방식과 GRPO 수정 방식이 본질적으로 동일하며, 이는 강화학습 정책 경사 최적화에 대한 통일된 관점을 제공합니다.
•
'어려운 예제 가중치 증가'와 같은 실질적인 기법은 보상 수준의 정규화로 해석될 수 있으며, 이는 새로운 알고리즘 설계의 가능성을 열어줍니다.
•
본 연구는 Pass@K를 넘어선 검증 가능한 보상(RLVR) 기반 정책 경사 최적화에 대한 새로운 시각을 제공합니다.