haebom
Sign In
SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Binbin Zheng, Xing Ma, Yiheng Liang, Jingqing Ruan, Xiaoliang Fu, Kepeng Lin, Benchang Zhu, Ke Zeng, Xunliang Cai
๐ก ๊ฐ์
๊ธฐ์กด์ ์จ-ํด๋ฆฌ์ ๊ฐํํ์ต(RL)์ ์ธ์ด ๋ชจ๋ธ์ ์ถ๋ก ์ ๋ ฌ์ ํจ๊ณผ์ ์ด์ง๋ง, ํ ํฐ ์์ค์ ํฌ๋ ๋ง ํ ๋น์ด ์ด๋ ต๋ค๋ ๋จ์ ์ด ์์ต๋๋ค. ์ ์๋ SCOPE๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋กค์์์ ์ ํ๋์ ๋ฐ๋ผ ๋ ๊ฐ์ง ๊ฒฝ๋ก๋ก ๊ฐ๋ ์ ํธ๋ฅผ ๋ถ๊ธฐํ๋ ์ด์ค ๊ฒฝ๋ก ์ ์ํ ๊ฐ์ค์น ๋ถ์ฌ ํ๋ ์์ํฌ๋ฅผ ๋์ ํฉ๋๋ค. ์ด๋ฅผ ํตํด ์๋ชป๋ ๊ถค์ ์๋ ๊ต์ ๋ฅ๋ ฅ์ด ๋์ ๊ฒฝ์ฐ๋ฅผ ์ฐ์ ์ํ๊ณ , ์ฌ๋ฐ๋ฅธ ๊ถค์ ์๋ ๋ฎ์ ํ์ ๋๋ฅผ ๊ฐ์ง ์ํ์ ์ง์คํ์ฌ ์ฑ๋ฅ์ ํฅ์์ํต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
๋กค์์์ ์ ํ๋์ ๋ฐ๋ผ ๊ฐ๋ ์ ํธ๋ฅผ ์ฐจ๋ณํํ์ฌ ์จ-ํด๋ฆฌ์ ๊ฐํํ์ต์ ํจ์จ์ฑ์ ๋์ผ ์ ์์ต๋๋ค.
โข
๊ต์ ๋ฅ๋ ฅ์ด ๋์ ์ํ์ ์ง์คํ๊ณ ๋ฎ์ ํ์ ๋๋ฅผ ๊ฐ์ง ์ํ์ ํ์ฉํจ์ผ๋ก์จ ๋ชจ๋ธ์ ํ์ต ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ์ ๊ฐ์ ํฉ๋๋ค.
โข
๋ค์ํ ํ๋กฌํํธ์ ๋์ด๋ ๋ณํ๋ฅผ ๊ณ ๋ คํ ๊ทธ๋ฃน ๋ ๋ฒจ ์ ๊ทํ๋ฅผ ํตํด ๊ฐ์ค์น ๋ถํฌ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์กฐ์ ํฉ๋๋ค.
โข
SCOPE์ ์ ๋ฐ์ ์ธ ์ฑ๋ฅ ๊ฐ์ ์ ๋ํ ์ถ๊ฐ์ ์ธ ๋ถ์๊ณผ ๋ค์ํ LLM ์ํคํ ์ฒ์ ๋ํ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ํ๊ตฌํ ํ์๊ฐ ์์ต๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage