haebom
Sign In
Reinforcement-aware Knowledge Distillation for LLM Reasoning
Created by
Haebom
Category
Empty
์ ์
Zhaoyang Zhang, Shuli Jiang, Yantao Shen, Yuting Zhang, Dhananjay Ram, Shuo Yang, Zhuowen Tu, Wei Xia, Stefano Soatto
๐ก ๊ฐ์
์ด ๋ ผ๋ฌธ์ ๊ฐํํ์ต(RL)์ผ๋ก ์ฑ๋ฅ์ด ํฅ์๋ ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ(LLM)์ ๋์ ์ถ๋ก ๋น์ฉ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ง์ ์ฆ๋ฅ(KD)๋ฅผ ์ ์ํฉ๋๋ค. ๊ธฐ์กด KD ๋ฐฉ๋ฒ์ด RL ํ๊ฒฝ์์ ๋ฐ์ํ๋ ๋ถํฌ ๋ถ์ผ์น ๋ฐ ๋ชฉํ ์ถฉ๋ ๋ฌธ์ ๋ฅผ ๊ฒช๋๋ค๋ ์ ์ ์ง์ ํ๋ฉฐ, ์ด๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด RL ๊ณผ์ ์์ ์ ์ฑ ์ ๋ฐ์ดํธ์ ๋์์ด ๋ ๋๋ง ๋ชจ๋ฐฉ์ ์ํํ๋ RL-aware distillation (RLAD) ๊ธฐ๋ฒ์ ์๊ฐํฉ๋๋ค. ํต์ฌ ๊ธฐ์ ์ธ Trust Region Ratio Distillation (TRRD)์ PPO/GRPO ์คํ์ผ์ ํ๋ฅ ๋น์จ ๋ชฉ์ ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ์ฅ์ ์ธ์ ๋ฐ ์ ๋ขฐ ์์ญ ์ ํ์ ์ธ ์ฆ๋ฅ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
RL ํ๋ จ ๊ณผ์ ์์ ๋ฐ์ํ๋ teacher-student ๋ถํฌ ๋ถ์ผ์น ๋ฌธ์ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํด๊ฒฐํ๊ณ , reward maximization๊ณผ์ ์์ถฉ์ ์ค์ ๋๋ค.
โข
์ ์ํ๋ RLAD ๊ธฐ๋ฒ์ ๋ค์ํ ๋ ผ๋ฆฌ ์ถ๋ก ๋ฐ ์ํ ๋ฒค์น๋งํฌ์์ ๊ธฐ์กด์ ์คํ๋ผ์ธ ์ฆ๋ฅ, ํ์ค GRPO, KL ๊ธฐ๋ฐ ์ฆ๋ฅ ๋ฐฉ์๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค.
โข
TRRD๋ ํํ, ํ์ฉ, ๋ชจ๋ฐฉ ๊ฐ์ ๊ท ํ์ ์์ฐ์ค๋ฝ๊ฒ ๋ง์ถฐ ํจ์จ์ ์ธ ์ง์ ์ ๋ฌ์ ์ ๋ํฉ๋๋ค.
โข
์ ์๋ ๋ฐฉ๋ฒ์ ๋ณต์ก์ฑ๊ณผ ํน์ RL ์๊ณ ๋ฆฌ์ฆ(PPO/GRPO)์ ๋ํ ์์กด์ฑ์ด ํฅํ ์ฐ๊ตฌ์์ ๊ณ ๋ ค๋ ์ ์์ต๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage