Revisiting Reinforcement Learning with Verifiable Rewards from a Contrastive Perspective

Author

Haebom

저자

Feng Zhang, Xinhong Ma, Ziqiang Dong, Xi Leng, Jianfei Zhao, Xin Sun, Yang Yang, Guanjun Jiang

💡 개요

본 논문은 언어 모델의 추론 능력 강화를 위한 강화학습 기법인 GRPO의 한계를 지적하고, 이를 개선한 ConSPO를 제안한다. GRPO는 검증된 긍정적 결과와 부정적 결과 간의 점수 차이를 최대화하는 방식으로 정책을 최적화하지만, 실제 시퀀스 확률이 아닌 임의의 점수와 모든 결과에 대해 동일한 가중치를 부여하는 문제가 있다. ConSPO는 이러한 문제를 해결하기 위해 시퀀스 길이로 정규화된 로그 확률을 점수로 사용하고, 긍정적 결과와 부정적 결과 간의 대비 학습을 통해 성능을 향상시킨다.

🔑 시사점 및 한계

•

강화학습에서 검증된 보상(Verifiable Rewards)을 활용하는 방식에 대한 새로운 관점을 제시한다.

•

GRPO의 두 가지 주요 한계점(likelihood-misaligned surrogate scores, score-insensitive credit assignment)을 명확히 규명한다.

•

제안된 ConSPO는 다양한 추론 작업에서 기존 방법론 대비 우수한 성능을 보여, 검증된 보상 기반 강화학습의 실효성을 입증한다.

•

ConSPO의 효과를 극대화하기 위한 커리큘럼 학습 및 마진 설계가 중요한 역할을 한다.

•

ConSPO의 일반적인 적용 가능성과 다양한 LLM 아키텍처에서의 성능 검증이 향후 연구 과제로 남는다.

PDF 보기

Made with Slashpage