Sign In

Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning

Created by
  • Haebom
Category
Empty

์ €์ž

Zhaoyang Wang, Canwen Xu, Boyi Liu, Yite Wang, Siwei Han, Zhewei Yao, Huaxiu Yao, Yuxiong He

๐Ÿ’ก ๊ฐœ์š”

์ตœ๊ทผ LLM ๊ธฐ๋ฐ˜ ์ž์œจ ์—์ด์ „ํŠธ์˜ ๋ฐœ์ „์€ ๋ณต์žกํ•œ ๋„๊ตฌ ๋ฐ ํ™˜๊ฒฝ ์ƒํ˜ธ์ž‘์šฉ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ–ˆ์œผ๋‚˜, ํ›ˆ๋ จ์„ ์œ„ํ•œ ๋‹ค์–‘ํ•˜๊ณ  ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ํ™˜๊ฒฝ ๋ถ€์กฑ์ด ํ•œ๊ณ„๋กœ ์ง€์ ๋ฉ๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์€ ์ฝ”๋“œ ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค ๋ฐฑ์—…์˜ ์™„์ „ ํ•ฉ์„ฑ ํ™˜๊ฒฝ ์ƒ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ์ธ Agent World Model (AWM)์„ ์ œ์•ˆํ•˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด 1,000๊ฐœ ์ด์ƒ์˜ ์ผ์ƒ ์‹œ๋‚˜๋ฆฌ์˜ค ํ™˜๊ฒฝ์„ ๊ตฌ์ถ•ํ•˜๊ณ  ๋‹ค์ˆ˜์˜ ๋„๊ตฌ์™€ ๊ณ ํ’ˆ์งˆ ๊ด€์ธก ๋ฐ์ดํ„ฐ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. LLM ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ๋ณด๋‹ค ์‹ ๋ขฐ์„ฑ ๋†’๊ณ  ํšจ์œจ์ ์ธ ์ƒํ˜ธ์ž‘์šฉ์ด ๊ฐ€๋Šฅํ•˜๋ฉฐ, ํ•ฉ์„ฑ ํ™˜๊ฒฝ๋งŒ์œผ๋กœ๋„ ๋ฒค์น˜๋งˆํฌ๋ณ„ ํ™˜๊ฒฝ์„ ๋Œ€์ฒดํ•  ์ •๋„๋กœ ์šฐ์ˆ˜ํ•œ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•จ์„ ์‹คํ—˜์ ์œผ๋กœ ์ž…์ฆํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
LLM ๊ธฐ๋ฐ˜ ์ž์œจ ์—์ด์ „ํŠธ ํ›ˆ๋ จ์„ ์œ„ํ•œ ๋Œ€๊ทœ๋ชจ์˜ ๋‹ค์–‘ํ•˜๊ณ  ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ํ•ฉ์„ฑ ํ™˜๊ฒฝ์„ ์ฒด๊ณ„์ ์œผ๋กœ ๊ตฌ์ถ•ํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์™„์ „ ํ•ฉ์„ฑ ํ™˜๊ฒฝ์—์„œ์˜ ํ›ˆ๋ จ์ด ๊ธฐ์กด ๋ฒค์น˜๋งˆํฌ๋ณ„ ํ™˜๊ฒฝ์—์„œ์˜ ํ›ˆ๋ จ๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ OOD(Out-of-Distribution) ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๋ณด์—ฌ, ์ƒˆ๋กœ์šด ํ™˜๊ฒฝ์— ๋Œ€ํ•œ ์—์ด์ „ํŠธ์˜ ์ ์‘๋ ฅ์„ ๋†’์ผ ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๋‹ค์–‘ํ•œ ๋„๊ตฌ์™€ ๊ณ ํ’ˆ์งˆ ๊ด€์ธก ๋ฐ์ดํ„ฐ, ๊ทธ๋ฆฌ๊ณ  ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ๋ณด์ƒ ํ•จ์ˆ˜ ์„ค๊ณ„๋ฅผ ํ†ตํ•ด ์—์ด์ „ํŠธ์˜ ๋‹ค์ค‘ ํ„ด ๋„๊ตฌ ์‚ฌ์šฉ ๋Šฅ๋ ฅ์„ ํšจ๊ณผ์ ์œผ๋กœ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ ํ•ฉ์„ฑ ํ™˜๊ฒฝ์ด ํ˜„์‹ค ์„ธ๊ณ„์˜ ๋ณต์žกํ•˜๊ณ  ์˜ˆ์ธก ๋ถˆ๊ฐ€๋Šฅํ•œ ์ƒํ™ฉ์„ ์™„๋ฒฝํ•˜๊ฒŒ ๋ชจ์‚ฌํ•˜๋Š” ๋ฐ๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์„ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์‹ค์ œ ์ ์šฉ ์‹œ์—๋Š” ํ˜„์‹ค ํ™˜๊ฒฝ๊ณผ์˜ ๊ฐ„๊ทน์„ ๊ณ ๋ คํ•œ ์ถ”๊ฐ€์ ์ธ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘