Sign In

Milestone-Guided Policy Learning for Long-Horizon Language Agents

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Zixuan Wang, Yuchen Yan, Hongxing Li, Teng Pan, Dingming Li, Ruiqing Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๋ณต์žกํ•˜๊ณ  ์žฅ๊ธฐ๊ฐ„์— ๊ฑธ์นœ ์–ธ์–ด ์—์ด์ „ํŠธ ํ•™์Šต์˜ ์–ด๋ ค์›€, ํŠนํžˆ ์ž˜๋ชป๋œ ์‹ ์šฉ ํ• ๋‹น๊ณผ ๋‚ฎ์€ ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด BEACON์ด๋ผ๋Š” ๋งˆ์ผ์Šคํ†ค ๊ธฐ๋ฐ˜ ์ •์ฑ… ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. BEACON์€ ๋งˆ์ผ์Šคํ†ค์„ ๊ธฐ์ค€์œผ๋กœ ๊ถค์ ์„ ๋ถ„ํ• ํ•˜๊ณ , ๋ถ€๋ถ„์  ์ง„ํ–‰์— ๋Œ€ํ•œ ๋ณด์ƒ์„ ์ œ๊ณตํ•˜๋ฉฐ, ์ง€์—ญ์  ํ–‰๋™ ํ‰๊ฐ€๋ฅผ ๋ฐฉํ•ดํ•˜๋Š” ๋จผ ์‹คํŒจ๋ฅผ ์™„ํ™”ํ•˜์—ฌ ์ •ํ™•ํ•œ ์‹ ์šฉ ํ• ๋‹น์„ ๋ณด์žฅํ•ฉ๋‹ˆ๋‹ค. ALFWorld, WebShop, ScienceWorld ๋“ฑ์˜ ๋ฒค์น˜๋งˆํฌ์—์„œ BEACON์€ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ก ์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ๋›ฐ์–ด๋‚œ ์„ฑ๊ณต๋ฅ ๊ณผ ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
๋งˆ์ผ์Šคํ†ค ๊ธฐ๋ฐ˜ ์‹ ์šฉ ํ• ๋‹น์˜ ํšจ๊ณผ์„ฑ: ์žฅ๊ธฐ ๊ณผ์ œ์—์„œ ๋ช…ํ™•ํ•œ ์ค‘๊ฐ„ ๋ชฉํ‘œ(๋งˆ์ผ์Šคํ†ค)๋ฅผ ์„ค์ •ํ•˜๊ณ  ์ด๋ฅผ ํ™œ์šฉํ•˜๋Š” ๊ฒƒ์ด ์—์ด์ „ํŠธ ํ•™์Šต์˜ ์ •ํ™•ํ•œ ์‹ ์šฉ ํ• ๋‹น๊ณผ ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
์žฅ๊ธฐ ์–ธ์–ด ์—์ด์ „ํŠธ ํ•™์Šต์˜ ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„ ์ œ์‹œ: BEACON์€ ๊ธฐ์กด์˜ ๊ฐ•ํ™” ํ•™์Šต ๋ฐฉ๋ฒ•๋ก ์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ , ๋ณต์žกํ•œ ์žฅ๊ธฐ ๊ณผ์ œ๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ์–ธ์–ด ์—์ด์ „ํŠธ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ํ›ˆ๋ จํ•  ์ˆ˜ ์žˆ๋Š” ์‹ค์งˆ์ ์ธ ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๋งˆ์ผ์Šคํ†ค ์ •์˜์˜ ์ค‘์š”์„ฑ ๋ฐ ์ผ๋ฐ˜ํ™”: ๋ณธ ์—ฐ๊ตฌ๋Š” ๋งˆ์ผ์Šคํ†ค์ด ๋ช…ํ™•ํ•˜๊ฒŒ ์ •์˜๋œ ํƒœ์Šคํฌ์— ๋Œ€ํ•ด ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์œผ๋‚˜, ๋งˆ์ผ์Šคํ†ค ์ •์˜๊ฐ€ ์–ด๋ ต๊ฑฐ๋‚˜ ๋ถˆ๋ถ„๋ช…ํ•œ ํƒœ์Šคํฌ์— ๋Œ€ํ•œ BEACON์˜ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ์€ ์ถ”๊ฐ€์ ์ธ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘