haebom
Sign In
Skill-SD: Skill-Conditioned Self-Distillation for Multi-turn LLM Agents
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Hao Wang, Guozhi Wang, Han Xiao, Yufeng Zhou, Yue Pan, Jichao Wang, Ke Xu, Yafei Wen, Xiaohu Ruan, Xiaoxin Chen, Honggang Qi
๐ก ๊ฐ์
๋ณธ ์ฐ๊ตฌ๋ ๋ค์ค ํด LLM ์์ด์ ํธ ํ์ต์ ๋ฎ์ ์ํ ํจ์จ์ฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Skill-SD๋ผ๋ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. Skill-SD๋ ์์ด์ ํธ์ ์์ฒด ๊ถค์ ์ ์์ฐ์ด ์คํฌ๋ก ์์ฝํ์ฌ ๋์ ์ธ ํ์ต ์ง๋ ์ ๋ณด๋ฅผ ์์ฑํ๊ณ , ์ด๋ฅผ ํ์ฉํ์ฌ ํ์ ๋ชจ๋ธ์ด ํจ์จ์ ์ผ๋ก ํ์ตํ๋๋ก ๋๋๋ค. ์ ์๋ ๊ธฐ๋ฒ์ ๊ธฐ์กด RL ๊ธฐ๋ฐ ํ์ต ๋ฐฉ๋ฒ๋ก ๋๋น ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํค๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
๋ค์ค ํด LLM ์์ด์ ํธ ํ์ต์์ ์ํ ํจ์จ์ฑ์ ํ๊ธฐ์ ์ผ๋ก ๊ฐ์ ํ ์ ์๋ ์๋ก์ด ์ง๋ ํ์ต ํจ๋ฌ๋ค์์ ์ ์ํ๋ค.
โข
์์ด์ ํธ์ ์์ฒด ๊ฒฝํ์ ํ์ฉํ ๋์ ์ง๋ ์ ๋ณด ์์ฑ์ด ํ์ต ์์ ์ฑ๊ณผ ์ฑ๋ฅ ํฅ์์ ํจ๊ณผ์ ์์ ์ ์ฆํ๋ค.
โข
์ ์๋ ๊ธฐ๋ฒ์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ฐ ๋ค์ํ ์์ด์ ํธ ํ์คํฌ์ ๋ํ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๋ํ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage