On the Implicit Reward Overfitting and the Low-rank Dynamics in RLVR

작성자

Haebom

카테고리

Empty

저자

Hao Ye, Jisheng Dang, Junfeng Fang, Bimei Wang, Yizhou Zhang, Ning Lv, Wencan Zhang, Hong Peng, Bin Hu, Tat-Seng Chua

💡 개요

본 논문은 강화학습 기반 검증 가능한 보상(RLVR) 모델의 학습 과정에서 발생하는 암묵적 보상 과적합 현상과 저차원 동적 특성을 분석합니다. 연구진은 RLVR 학습이 주로 Rank-1 성분에 집중되며, 이로 인해 훈련 중 낮은 보상에도 불구하고 테스트 세트에서 만족스러운 성능을 달성할 수 있음을 발견했습니다. 또한, RLVR 학습이 수학적 추론 능력 외의 지식은 유지하지 않으며, 특정 특이값 스펙트럼을 최적화하고, Left singular vector가 훈련 중에 강한 정렬 경향을 보인다는 점을 규명했습니다.

🔑 시사점 및 한계

•

RLVR은 훈련 데이터에 암묵적으로 과적합될 수 있으며, 이는 낮은 보상 수준에서도 우수한 테스트 성능을 유발할 수 있습니다.

•

RLVR 학습은 수학적 추론 능력에 집중하며, 이는 모델의 지식 습득 방식에 대한 이해를 높입니다.

•

RLVR 학습은 특이값 스펙트럼의 최적화를 통해 이루어지며, 이는 모델 파라미터의 동적 변화에 대한 통찰을 제공합니다.

•

본 연구는 RLVR의 샘플링 효율성 최적화 경향을 시사하며, 이는 향후 지속 학습(continual learning) 및 기타 학습 패러다임 개선에 기여할 수 있습니다.

•

본 연구에서 규명된 저차원 동적 특성이 모든 RLVR 모델에 보편적으로 적용되는지, 그리고 이러한 특성이 다른 유형의 지속 학습에 어떻게 활용될 수 있는지에 대한 추가 연구가 필요합니다.

PDF 보기

Made with Slashpage