haebom
Sign In
Beyond Reasoning Gains: Mitigating General-Capability Forgetting in Large Reasoning Models
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Hoang Phan, Xianjun Yang, Yuanshun Yao, Jingyu Zhang, Shengjie Bi, Xiaocheng Tang, Madian Khabsa, Lijuan Liu, Deren Lei
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ๊ฐํํ์ต ๊ธฐ๋ฐ ๊ฒ์ฆ ๋ณด์(RLVR)์ด ๋๊ท๋ชจ ์ถ๋ก ๋ชจ๋ธ์ ์ํ ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ์ถ๋ก ๋ฅ๋ ฅ์ ํฌ๊ฒ ํฅ์์ํค์ง๋ง, ๊ทผ๋ณธ์ ์ธ ์ผ๋ฐ ์ญ๋(์: ์ธ์, ์ถฉ์ค๋)์ ์๊ฒ ๋ง๋๋ '์ญ๋ ํดํ' ์ํ์ ์ด๋ํ๋ค๋ ๋ฌธ์ ๋ฅผ ์ ๊ธฐํฉ๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์ ์๋ค์ ๋์ ๊ฐ์ฒด ์ฌ๊ฐ์คํ๋ฅผ ํ์ฉํ๋ RECAP์ด๋ผ๋ ์๋ก์ด ๋ฆฌํ๋ ์ด ์ ๋ต์ ์ ์ํฉ๋๋ค. RECAP์ ๋จ๊ธฐ ์๋ ด ๋ฐ ๋ถ์์ ์ฑ ์ ํธ๋ฅผ ์จ๋ผ์ธ์ผ๋ก ์ ์์์ผ ํ์ต ์ด์ ์ ์กฐ์ ํจ์ผ๋ก์จ ์ผ๋ฐ ์ง์ ๋ณด์กด์ ๊ฐํํฉ๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
RLVR ๊ธฐ๋ฒ์ด ์ถ๋ก ๋ฅ๋ ฅ ํฅ์์ ํจ๊ณผ์ ์ด์ง๋ง, ๊ธฐ์กด ๋ชจ๋ธ์ ์ผ๋ฐ ์ญ๋ ํดํ์ ์ ๋ฐํ ์ ์์์ ์ค์ฆ์ ์ผ๋ก ํ์ธํ์ต๋๋ค.
โข
์ ์๋ RECAP ์ ๋ต์ ์ผ๋ฐ ์ง์ ๋ณด์กด๊ณผ ์ถ๋ก ๋ฅ๋ ฅ ํฅ์์ด๋ผ๋ ๋ ๊ฐ์ง ๋ชฉํ๋ฅผ ๋์์ ๋ฌ์ฑํ ์ ์๋ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ๋ก ์ ๋๋ค.
โข
RECAP์ ์ถ๊ฐ์ ์ธ ๋ชจ๋ธ ํ์ต์ด๋ ๋ณต์กํ ํ๋ ์์ด ๊ธฐ์กด RLVR ํ์ดํ๋ผ์ธ์ ์ฝ๊ฒ ํตํฉ๋ ์ ์์ต๋๋ค.
โข
๋ณธ ์ฐ๊ตฌ๋ Qwen2.5-VL ๋ชจ๋ธ์ ๋์์ผ๋ก ์คํํ์ฌ ์ ์๋ ๋ฐฉ๋ฒ์ ํจ๊ณผ์ฑ์ ์ ์ฆํ์ง๋ง, ๋ค์ํ ๊ท๋ชจ์ ์ํคํ ์ฒ์ ๋ค๋ฅธ ๋ชจ๋ธ์ ๋ํ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ์ถ๊ฐ์ ์ผ๋ก ๊ฒ์ฆํ ํ์๊ฐ ์์ต๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage