When to Re-Commit: Temporal Abstraction Discovery for Long-Horizon Vision-Language Reasoning

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
๋น„์–ด ์žˆ์Œ

์ €์ž

Chen Li, Zhantao Yang, Fangyi Chen, Han Zhang, Anudeepsekhar Bolimera, Marios Savvides

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ์žฅ๊ธฐ ๋น„์ „-์–ธ์–ด ์ถ”๋ก ์—์„œ ์‹คํ–‰ํ•  ํ–‰๋™๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋‹ค์Œ ๊ด€์ธก ์ „๊นŒ์ง€ ์–ผ๋งˆ๋‚˜ ๊นŠ์ด ์‹คํ–‰ํ• ์ง€๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” '์ปค๋ฐ‹๋จผํŠธ ๊นŠ์ด' ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃน๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ์ด๋ฅผ ๊ณ ์ •๋œ ๊ฐ’์ด ์•„๋‹Œ, ์ •์ฑ…์˜ ์ƒํƒœ ์กฐ๊ฑด๋ถ€ ํ•™์Šต ๊ฐ€๋Šฅ ๋ณ€์ˆ˜๋กœ ์„ค์ •ํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•์€ Sliding Puzzle ๋ฐ Sokoban ํƒœ์Šคํฌ์—์„œ ๊ณ ์ • ๊นŠ์ด ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ•˜๋ฉฐ, ํ•ด๊ฒฐ๋ฅ ์„ ๋†’์ด๊ณ  ์‹คํ–‰ํ•˜๋Š” ์›์‹œ ํ–‰๋™ ์ˆ˜๋ฅผ ์ค„์ด๋Š” ์ฃผ์š” ์„ฑ๊ณผ๋ฅผ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
์žฅ๊ธฐ ๋น„์ „-์–ธ์–ด ์ถ”๋ก ์—์„œ ๋™์ ์œผ๋กœ ๊ฒฐ์ •๋˜๋Š” ์ปค๋ฐ‹๋จผํŠธ ๊นŠ์ด๋Š” ๊ณ ์ •๋œ ๊ฐ’๋ณด๋‹ค ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์žฅํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ ๋ชจ๋ธ์€ ์ตœ์‹  ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ, ํŠน์ • ํƒœ์Šคํฌ์—์„œ ๋” ํšจ์œจ์ ์ธ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์ด๋ก ์ ์œผ๋กœ, ์ตœ์ ์˜ ์ปค๋ฐ‹๋จผํŠธ ๊นŠ์ด๊ฐ€ ์ƒํƒœ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์งˆ ๋•Œ ์ƒํƒœ ์กฐ๊ฑด๋ถ€ ์ปค๋ฐ‹๋จผํŠธ๋Š” ๊ณ ์ • ๊นŠ์ด๋ณด๋‹ค ํ•ญ์ƒ ์šฐ์›”ํ•จ์„ ์ฆ๋ช…ํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ๊ณผ ๋” ๋ณต์žกํ•œ ์žฅ๊ธฐ ์ถ”๋ก  ํƒœ์Šคํฌ์— ๋Œ€ํ•œ ํ™•์žฅ์„ฑ ๋ฐ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์— ๋Œ€ํ•œ ์ถ”๊ฐ€์ ์ธ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘