haebom
Sign In
On the Implicit Reward Overfitting and the Low-rank Dynamics in RLVR
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Hao Ye, Jisheng Dang, Junfeng Fang, Bimei Wang, Yizhou Zhang, Ning Lv, Wencan Zhang, Hong Peng, Bin Hu, Tat-Seng Chua
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ๊ฐํํ์ต ๊ธฐ๋ฐ ๊ฒ์ฆ ๊ฐ๋ฅํ ๋ณด์(RLVR) ๋ชจ๋ธ์ ํ์ต ๊ณผ์ ์์ ๋ฐ์ํ๋ ์๋ฌต์ ๋ณด์ ๊ณผ์ ํฉ ํ์๊ณผ ์ ์ฐจ์ ๋์ ํน์ฑ์ ๋ถ์ํฉ๋๋ค. ์ฐ๊ตฌ์ง์ RLVR ํ์ต์ด ์ฃผ๋ก Rank-1 ์ฑ๋ถ์ ์ง์ค๋๋ฉฐ, ์ด๋ก ์ธํด ํ๋ จ ์ค ๋ฎ์ ๋ณด์์๋ ๋ถ๊ตฌํ๊ณ ํ ์คํธ ์ธํธ์์ ๋ง์กฑ์ค๋ฌ์ด ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์์์ ๋ฐ๊ฒฌํ์ต๋๋ค. ๋ํ, RLVR ํ์ต์ด ์ํ์ ์ถ๋ก ๋ฅ๋ ฅ ์ธ์ ์ง์์ ์ ์งํ์ง ์์ผ๋ฉฐ, ํน์ ํน์ด๊ฐ ์คํํธ๋ผ์ ์ต์ ํํ๊ณ , Left singular vector๊ฐ ํ๋ จ ์ค์ ๊ฐํ ์ ๋ ฌ ๊ฒฝํฅ์ ๋ณด์ธ๋ค๋ ์ ์ ๊ท๋ช ํ์ต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
RLVR์ ํ๋ จ ๋ฐ์ดํฐ์ ์๋ฌต์ ์ผ๋ก ๊ณผ์ ํฉ๋ ์ ์์ผ๋ฉฐ, ์ด๋ ๋ฎ์ ๋ณด์ ์์ค์์๋ ์ฐ์ํ ํ ์คํธ ์ฑ๋ฅ์ ์ ๋ฐํ ์ ์์ต๋๋ค.
โข
RLVR ํ์ต์ ์ํ์ ์ถ๋ก ๋ฅ๋ ฅ์ ์ง์คํ๋ฉฐ, ์ด๋ ๋ชจ๋ธ์ ์ง์ ์ต๋ ๋ฐฉ์์ ๋ํ ์ดํด๋ฅผ ๋์ ๋๋ค.
โข
RLVR ํ์ต์ ํน์ด๊ฐ ์คํํธ๋ผ์ ์ต์ ํ๋ฅผ ํตํด ์ด๋ฃจ์ด์ง๋ฉฐ, ์ด๋ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ์ ๋์ ๋ณํ์ ๋ํ ํต์ฐฐ์ ์ ๊ณตํฉ๋๋ค.
โข
๋ณธ ์ฐ๊ตฌ๋ RLVR์ ์ํ๋ง ํจ์จ์ฑ ์ต์ ํ ๊ฒฝํฅ์ ์์ฌํ๋ฉฐ, ์ด๋ ํฅํ ์ง์ ํ์ต(continual learning) ๋ฐ ๊ธฐํ ํ์ต ํจ๋ฌ๋ค์ ๊ฐ์ ์ ๊ธฐ์ฌํ ์ ์์ต๋๋ค.
โข
๋ณธ ์ฐ๊ตฌ์์ ๊ท๋ช ๋ ์ ์ฐจ์ ๋์ ํน์ฑ์ด ๋ชจ๋ RLVR ๋ชจ๋ธ์ ๋ณดํธ์ ์ผ๋ก ์ ์ฉ๋๋์ง, ๊ทธ๋ฆฌ๊ณ ์ด๋ฌํ ํน์ฑ์ด ๋ค๋ฅธ ์ ํ์ ์ง์ ํ์ต์ ์ด๋ป๊ฒ ํ์ฉ๋ ์ ์๋์ง์ ๋ํ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage