Sign In

World-Ego Modeling for Long-Horizon Evolution in Hybrid Embodied Tasks

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Zuyao Lin, Jianhui Zhang, Peidong Jia, Xiaoguang Zhao, Shanghang Zhang, Xingyu Chen

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๊ธฐ์กด์˜ ์„ธ๊ณ„ ๋ชจ๋ธ์ด ๋กœ๋ด‡(ego)๊ณผ ์ฃผ๋ณ€ ํ™˜๊ฒฝ(world)์˜ ์ง„ํ™”๋ฅผ ๋‹จ์ผ ํ๋ฆ„์œผ๋กœ ์˜ˆ์ธกํ•˜์—ฌ ์žฅ๊ธฐ์ ์ธ ๋ณตํ•ฉ ๊ณผ์ œ์—์„œ ์„ฑ๋Šฅ ์ €ํ•˜๋ฅผ ๊ฒช๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด '์›”๋“œ-์ด๊ณ  ๋ชจ๋ธ๋ง(World-Ego Modeling)'์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ๊ฐœ๋…์  ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ด ํŒจ๋Ÿฌ๋‹ค์ž„์€ ์„ธ๊ณ„์™€ ๋กœ๋ด‡์˜ ๋ฏธ๋ž˜ ์ง„ํ™”๋ฅผ ๋ถ„๋ฆฌํ•˜์—ฌ ์˜ˆ์ธกํ•˜๋ฉฐ, ์ด๋ฅผ '์›”๋“œ-์ด๊ณ  ๋ชจ๋ธ(WEM)'๋กœ ๊ตฌํ˜„ํ•˜๊ณ  125,000๊ฐœ์˜ ๋น„๋””์˜ค ํด๋ฆฝ๊ณผ 300๊ฐœ์˜ ํ‰๊ฐ€ ๊ถค์ ์œผ๋กœ ๊ตฌ์„ฑ๋œ HTEWorld ๋ฒค์น˜๋งˆํฌ๋ฅผ ๊ตฌ์ถ•ํ•˜์—ฌ ์‹คํ—˜์„ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. WEM์€ HTEWorld ๋ฒค์น˜๋งˆํฌ์—์„œ ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, ๊ธฐ์กด ์กฐ์ž‘ ์ „์šฉ ๋ฒค์น˜๋งˆํฌ์—์„œ๋„ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
๋กœ๋ด‡ ๊ณตํ•™์—์„œ ์žฅ๊ธฐ์ ์ธ ๋ณตํ•ฉ ๊ณผ์ œ ์ˆ˜ํ–‰ ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ์„ธ๊ณ„ ๋ชจ๋ธ๋ง ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์„ธ๊ณ„์™€ ๋กœ๋ด‡์˜ ๋™์  ๋ชจ๋ธ์„ ๋ช…ํ™•ํ•˜๊ฒŒ ๋ถ„๋ฆฌํ•˜์—ฌ ์˜ˆ์ธก์˜ ์ •ํ™•์„ฑ๊ณผ ํšจ์œจ์„ฑ์„ ๋†’์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
HTEWorld ๋ฒค์น˜๋งˆํฌ๋Š” ์žฅ๊ธฐ์ ์ธ ๋ณตํ•ฉ ๊ณผ์ œ ํ™˜๊ฒฝ์—์„œ์˜ ์›”๋“œ ๋ชจ๋ธ๋ง ์—ฐ๊ตฌ๋ฅผ ์ด‰์ง„ํ•  ์ˆ˜ ์žˆ๋Š” ์ค‘์š”ํ•œ ์ž์›์ž…๋‹ˆ๋‹ค.
โ€ข
'์›”๋“œ-์ด๊ณ  ๊ฒฝ๊ณ„'๋ฅผ ์ •์˜ํ•˜๋Š” ์„ธ ๊ฐ€์ง€ ๊ด€์ (์šด๋™, ์˜๋ฏธ, ์˜๋„)๊ณผ ์„ธ ๊ฐ€์ง€ ๋ถ„๋ฆฌ ์ „๋žต(ํ›„, ์ „, ์™„์ „ ๋ถ„๋ฆฌ)์˜ ํšจ๊ณผ์— ๋Œ€ํ•œ ์ถ”๊ฐ€์ ์ธ ์‹ฌ์ธต ๋ถ„์„์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘