haebom
Sign In
Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning
Created by
Haebom
Category
Empty
์ ์
Zhaoyang Wang, Canwen Xu, Boyi Liu, Yite Wang, Siwei Han, Zhewei Yao, Huaxiu Yao, Yuxiong He
๐ก ๊ฐ์
์ต๊ทผ LLM ๊ธฐ๋ฐ ์์จ ์์ด์ ํธ์ ๋ฐ์ ์ ๋ณต์กํ ๋๊ตฌ ๋ฐ ํ๊ฒฝ ์ํธ์์ฉ์ ๊ฐ๋ฅํ๊ฒ ํ์ผ๋, ํ๋ จ์ ์ํ ๋ค์ํ๊ณ ์ ๋ขฐํ ์ ์๋ ํ๊ฒฝ ๋ถ์กฑ์ด ํ๊ณ๋ก ์ง์ ๋ฉ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ์ฝ๋ ๊ธฐ๋ฐ ๋ฐ์ดํฐ๋ฒ ์ด์ค ๋ฐฑ์ ์ ์์ ํฉ์ฑ ํ๊ฒฝ ์์ฑ ํ์ดํ๋ผ์ธ์ธ Agent World Model (AWM)์ ์ ์ํ๋ฉฐ, ์ด๋ฅผ ํตํด 1,000๊ฐ ์ด์์ ์ผ์ ์๋๋ฆฌ์ค ํ๊ฒฝ์ ๊ตฌ์ถํ๊ณ ๋ค์์ ๋๊ตฌ์ ๊ณ ํ์ง ๊ด์ธก ๋ฐ์ดํฐ๋ฅผ ์ ๊ณตํฉ๋๋ค. LLM ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ๋ณด๋ค ์ ๋ขฐ์ฑ ๋๊ณ ํจ์จ์ ์ธ ์ํธ์์ฉ์ด ๊ฐ๋ฅํ๋ฉฐ, ํฉ์ฑ ํ๊ฒฝ๋ง์ผ๋ก๋ ๋ฒค์น๋งํฌ๋ณ ํ๊ฒฝ์ ๋์ฒดํ ์ ๋๋ก ์ฐ์ํ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ฌ์ฑํจ์ ์คํ์ ์ผ๋ก ์ ์ฆํฉ๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
LLM ๊ธฐ๋ฐ ์์จ ์์ด์ ํธ ํ๋ จ์ ์ํ ๋๊ท๋ชจ์ ๋ค์ํ๊ณ ์ ๋ขฐํ ์ ์๋ ํฉ์ฑ ํ๊ฒฝ์ ์ฒด๊ณ์ ์ผ๋ก ๊ตฌ์ถํ๋ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํฉ๋๋ค.
โข
์์ ํฉ์ฑ ํ๊ฒฝ์์์ ํ๋ จ์ด ๊ธฐ์กด ๋ฒค์น๋งํฌ๋ณ ํ๊ฒฝ์์์ ํ๋ จ๋ณด๋ค ์ฐ์ํ OOD(Out-of-Distribution) ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ณด์ฌ, ์๋ก์ด ํ๊ฒฝ์ ๋ํ ์์ด์ ํธ์ ์ ์๋ ฅ์ ๋์ผ ์ ์์์ ์์ฌํฉ๋๋ค.
โข
๋ค์ํ ๋๊ตฌ์ ๊ณ ํ์ง ๊ด์ธก ๋ฐ์ดํฐ, ๊ทธ๋ฆฌ๊ณ ์ ๋ขฐํ ์ ์๋ ๋ณด์ ํจ์ ์ค๊ณ๋ฅผ ํตํด ์์ด์ ํธ์ ๋ค์ค ํด ๋๊ตฌ ์ฌ์ฉ ๋ฅ๋ ฅ์ ํจ๊ณผ์ ์ผ๋ก ํฅ์์ํฌ ์ ์์ต๋๋ค.
โข
์ ์๋ ํฉ์ฑ ํ๊ฒฝ์ด ํ์ค ์ธ๊ณ์ ๋ณต์กํ๊ณ ์์ธก ๋ถ๊ฐ๋ฅํ ์ํฉ์ ์๋ฒฝํ๊ฒ ๋ชจ์ฌํ๋ ๋ฐ๋ ํ๊ณ๊ฐ ์์ ์ ์์ผ๋ฉฐ, ์ค์ ์ ์ฉ ์์๋ ํ์ค ํ๊ฒฝ๊ณผ์ ๊ฐ๊ทน์ ๊ณ ๋ คํ ์ถ๊ฐ์ ์ธ ์ฐ๊ตฌ๊ฐ ํ์ํ ์ ์์ต๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage