Sign In

On the Implicit Reward Overfitting and the Low-rank Dynamics in RLVR

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Hao Ye, Jisheng Dang, Junfeng Fang, Bimei Wang, Yizhou Zhang, Ning Lv, Wencan Zhang, Hong Peng, Bin Hu, Tat-Seng Chua

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ๋ณด์ƒ(RLVR) ๋ชจ๋ธ์˜ ํ•™์Šต ๊ณผ์ •์—์„œ ๋ฐœ์ƒํ•˜๋Š” ์•”๋ฌต์  ๋ณด์ƒ ๊ณผ์ ํ•ฉ ํ˜„์ƒ๊ณผ ์ €์ฐจ์› ๋™์  ํŠน์„ฑ์„ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ RLVR ํ•™์Šต์ด ์ฃผ๋กœ Rank-1 ์„ฑ๋ถ„์— ์ง‘์ค‘๋˜๋ฉฐ, ์ด๋กœ ์ธํ•ด ํ›ˆ๋ จ ์ค‘ ๋‚ฎ์€ ๋ณด์ƒ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ํ…Œ์ŠคํŠธ ์„ธํŠธ์—์„œ ๋งŒ์กฑ์Šค๋Ÿฌ์šด ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ฐœ๊ฒฌํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, RLVR ํ•™์Šต์ด ์ˆ˜ํ•™์  ์ถ”๋ก  ๋Šฅ๋ ฅ ์™ธ์˜ ์ง€์‹์€ ์œ ์ง€ํ•˜์ง€ ์•Š์œผ๋ฉฐ, ํŠน์ • ํŠน์ด๊ฐ’ ์ŠคํŽ™ํŠธ๋Ÿผ์„ ์ตœ์ ํ™”ํ•˜๊ณ , Left singular vector๊ฐ€ ํ›ˆ๋ จ ์ค‘์— ๊ฐ•ํ•œ ์ •๋ ฌ ๊ฒฝํ–ฅ์„ ๋ณด์ธ๋‹ค๋Š” ์ ์„ ๊ทœ๋ช…ํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
RLVR์€ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์— ์•”๋ฌต์ ์œผ๋กœ ๊ณผ์ ํ•ฉ๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋Š” ๋‚ฎ์€ ๋ณด์ƒ ์ˆ˜์ค€์—์„œ๋„ ์šฐ์ˆ˜ํ•œ ํ…Œ์ŠคํŠธ ์„ฑ๋Šฅ์„ ์œ ๋ฐœํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
RLVR ํ•™์Šต์€ ์ˆ˜ํ•™์  ์ถ”๋ก  ๋Šฅ๋ ฅ์— ์ง‘์ค‘ํ•˜๋ฉฐ, ์ด๋Š” ๋ชจ๋ธ์˜ ์ง€์‹ ์Šต๋“ ๋ฐฉ์‹์— ๋Œ€ํ•œ ์ดํ•ด๋ฅผ ๋†’์ž…๋‹ˆ๋‹ค.
โ€ข
RLVR ํ•™์Šต์€ ํŠน์ด๊ฐ’ ์ŠคํŽ™ํŠธ๋Ÿผ์˜ ์ตœ์ ํ™”๋ฅผ ํ†ตํ•ด ์ด๋ฃจ์–ด์ง€๋ฉฐ, ์ด๋Š” ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๋™์  ๋ณ€ํ™”์— ๋Œ€ํ•œ ํ†ต์ฐฐ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๋ณธ ์—ฐ๊ตฌ๋Š” RLVR์˜ ์ƒ˜ํ”Œ๋ง ํšจ์œจ์„ฑ ์ตœ์ ํ™” ๊ฒฝํ–ฅ์„ ์‹œ์‚ฌํ•˜๋ฉฐ, ์ด๋Š” ํ–ฅํ›„ ์ง€์† ํ•™์Šต(continual learning) ๋ฐ ๊ธฐํƒ€ ํ•™์Šต ํŒจ๋Ÿฌ๋‹ค์ž„ ๊ฐœ์„ ์— ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๋ณธ ์—ฐ๊ตฌ์—์„œ ๊ทœ๋ช…๋œ ์ €์ฐจ์› ๋™์  ํŠน์„ฑ์ด ๋ชจ๋“  RLVR ๋ชจ๋ธ์— ๋ณดํŽธ์ ์œผ๋กœ ์ ์šฉ๋˜๋Š”์ง€, ๊ทธ๋ฆฌ๊ณ  ์ด๋Ÿฌํ•œ ํŠน์„ฑ์ด ๋‹ค๋ฅธ ์œ ํ˜•์˜ ์ง€์† ํ•™์Šต์— ์–ด๋–ป๊ฒŒ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋Š”์ง€์— ๋Œ€ํ•œ ์ถ”๊ฐ€ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘