Position: The Hidden Costs and Measurement Gaps of Reinforcement Learning with Verifiable Rewards

Created by

Haebom

저자

Fang Wu, Aaron Tu, Weihao Xuan, Heli Qi, Xu Huang, Qingcheng Zeng, Shayan Talaei, Yijia Xiao, Peng Xia, Xiangru Tang, Yuchen Zhuang, Bing Hu, Hanqun Cao, Wenqi Shi, Rui Yang, Nan Liu, Huaxiu Yao, Ge Liu, Li Erran Li, Amin Saberi, Naoto Yokoya, Jure Leskovec, Yejin Choi

💡 개요

본 논문은 강화학습 기반 보상 검증(RLVR)이 대규모 언어 모델의 수학, 코드 등 구조화된 작업 성능 향상에 유용하다는 기존 주장에 의문을 제기합니다. 연구진은 RLVR의 성과가 예산 불일치, 시도 횟수 증가, 데이터 오염 등 세 가지 교란 요인으로 인해 과대평가될 수 있음을 지적하며, 이를 검증하기 위한 새로운 평가 방법론을 제안합니다.

🔑 시사점 및 한계

•

RLVR의 성능 향상은 예산, 프롬프트, 데이터셋 버전 일치 여부에 따라 크게 달라지며, 교란 요인을 제거했을 때 기존에 보고된 성능 격차가 줄어들거나 사라질 수 있습니다.

•

현재의 RLVR 측정 방식은 능력 향상을 과대평가하고 신뢰성 비용을 간과할 수 있으므로, 보다 엄격하고 투명한 평가 기준이 필요합니다.

•

제안된 '세금 인지 최소 표준(tax-aware minimum standard)'은 예산 일치 포화 곡선, 보정, 기권 추적, LLM 판사 견고성 검사, 오염 스크리닝을 포함하여 RLVR의 효과적인 훈련 및 평가를 지원하지만, 이를 적용하지 않은 상태에서의 추론 능력 향상은 잠정적으로 간주해야 합니다.

PDF 보기

Made with Slashpage