Sign In

Skill-SD: Skill-Conditioned Self-Distillation for Multi-turn LLM Agents

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Hao Wang, Guozhi Wang, Han Xiao, Yufeng Zhou, Yue Pan, Jichao Wang, Ke Xu, Yafei Wen, Xiaohu Ruan, Xiaoxin Chen, Honggang Qi

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ์—ฐ๊ตฌ๋Š” ๋‹ค์ค‘ ํ„ด LLM ์—์ด์ „ํŠธ ํ•™์Šต์˜ ๋‚ฎ์€ ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด Skill-SD๋ผ๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. Skill-SD๋Š” ์—์ด์ „ํŠธ์˜ ์ž์ฒด ๊ถค์ ์„ ์ž์—ฐ์–ด ์Šคํ‚ฌ๋กœ ์š”์•ฝํ•˜์—ฌ ๋™์ ์ธ ํ•™์Šต ์ง€๋„ ์ •๋ณด๋ฅผ ์ƒ์„ฑํ•˜๊ณ , ์ด๋ฅผ ํ™œ์šฉํ•˜์—ฌ ํ•™์ƒ ๋ชจ๋ธ์ด ํšจ์œจ์ ์œผ๋กœ ํ•™์Šตํ•˜๋„๋ก ๋•๋Š”๋‹ค. ์ œ์•ˆ๋œ ๊ธฐ๋ฒ•์€ ๊ธฐ์กด RL ๊ธฐ๋ฐ˜ ํ•™์Šต ๋ฐฉ๋ฒ•๋ก  ๋Œ€๋น„ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚ฌ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
๋‹ค์ค‘ ํ„ด LLM ์—์ด์ „ํŠธ ํ•™์Šต์—์„œ ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ์„ ํš๊ธฐ์ ์œผ๋กœ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ๋Š” ์ƒˆ๋กœ์šด ์ง€๋„ ํ•™์Šต ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ œ์‹œํ•œ๋‹ค.
โ€ข
์—์ด์ „ํŠธ์˜ ์ž์ฒด ๊ฒฝํ—˜์„ ํ™œ์šฉํ•œ ๋™์  ์ง€๋„ ์ •๋ณด ์ƒ์„ฑ์ด ํ•™์Šต ์•ˆ์ •์„ฑ๊ณผ ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ํšจ๊ณผ์ ์ž„์„ ์ž…์ฆํ•œ๋‹ค.
โ€ข
์ œ์•ˆ๋œ ๊ธฐ๋ฒ•์˜ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ ๋ฐ ๋‹ค์–‘ํ•œ ์—์ด์ „ํŠธ ํƒœ์Šคํฌ์— ๋Œ€ํ•œ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์— ๋Œ€ํ•œ ์ถ”๊ฐ€ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•˜๋‹ค.
๐Ÿ‘