Sign In

When to Re-Commit: Temporal Abstraction Discovery for Long-Horizon Vision-Language Reasoning

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Chen Li, Zhantao Yang, Fangyi Chen, Han Zhang, Anudeepsekhar Bolimera, Marios Savvides

๐Ÿ’ก ๊ฐœ์š”

์ด ์—ฐ๊ตฌ๋Š” ์žฅ๊ธฐ์ ์ธ ๋น„์ „-์–ธ์–ด ์ถ”๋ก ์—์„œ ์ค‘์š”ํ•œ ๋ฌธ์ œ์ธ '์ปค๋ฐ‹๋จผํŠธ ๊นŠ์ด(commitment depth)'๋ฅผ ๋™์ ์œผ๋กœ ํ•™์Šตํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ปค๋ฐ‹๋จผํŠธ ๊นŠ์ด๋ž€ ๋‹ค์Œ ๊ด€์ฐฐ ์ „์— ์‹คํ–‰ํ•  ๊ธฐ๋ณธ ์•ก์…˜์˜ ์ˆ˜๋ฅผ ์˜๋ฏธํ•˜๋ฉฐ, ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ์ด๋ฅผ ๊ณ ์ •๋œ ๊ฐ’ ๋Œ€์‹  ์ƒํƒœ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง€๋Š” ํ•™์Šต ๊ฐ€๋Šฅํ•œ ๋ณ€์ˆ˜๋กœ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•์€ ๊ณ ์ •๋œ ์ปค๋ฐ‹๋จผํŠธ ๊นŠ์ด๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ธฐ์กด ์‹œ์Šคํ…œ๋“ค์— ๋น„ํ•ด ํƒ์ƒ‰ ๋น„์šฉ๊ณผ ์‹คํ–‰ ์˜ค๋ฅ˜ ๋ˆ„์  ์‚ฌ์ด์˜ ๊ท ํ˜•์„ ํšจ๊ณผ์ ์œผ๋กœ ๋งž์ถฐ, Sliding Puzzle ๋ฐ Sokoban ํƒœ์Šคํฌ์—์„œ ๋” ๋†’์€ ์„ฑ๊ณต๋ฅ ๊ณผ ์ ์€ ์•ก์…˜ ์‚ฌ์šฉ๋Ÿ‰์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
์‹œ๊ฐ„์  ์ถ”์ƒํ™”์˜ ๋™์  ํ•™์Šต: ์ปค๋ฐ‹๋จผํŠธ ๊นŠ์ด๋ฅผ ๊ณ ์ •๋œ ์„ค๊ณ„ ๋ณ€์ˆ˜๊ฐ€ ์•„๋‹Œ, ์ •์ฑ… ์ž์ฒด์˜ ํ•™์Šต ๊ฐ€๋Šฅํ•œ ์š”์†Œ๋กœ ๋‹ค๋ฃธ์œผ๋กœ์จ ์žฅ๊ธฐ์  ์ถ”๋ก ์˜ ํšจ์œจ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ: ์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•์€ ์ตœ์‹  ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ๋“ค์„ ํฌํ•จํ•œ ๋‹ค์–‘ํ•œ ๊ธฐ์กด ๋ชจ๋ธ๋“ค๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, ํŠนํžˆ ์ œ๋กœ์ƒท ์„ฑ๋Šฅ์ด ๋‚ฎ์€ ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ๋“ค์—๊ฒŒ ํšจ๊ณผ์ ์ธ ๋Œ€์•ˆ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์ด๋ก ์  ๊ธฐ๋ฐ˜: ์ƒํƒœ ์กฐ๊ฑด๋ถ€ ์ปค๋ฐ‹๋จผํŠธ๊ฐ€ ๊ณ ์ • ๊นŠ์ด๋ณด๋‹ค ์šฐ์›”ํ•จ์„ ์ด๋ก ์ ์œผ๋กœ ์ฆ๋ช…ํ•˜์—ฌ, ์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•๋ก ์˜ ์ •๋‹น์„ฑ์„ ๋’ท๋ฐ›์นจํ•ฉ๋‹ˆ๋‹ค.
โ€ข
ํ•œ๊ณ„์ : ์—ฐ๊ตฌ์—์„œ ๋‹ค๋ฃฌ ํƒœ์Šคํฌ๊ฐ€ ํŠน์ • ํผ์ฆ ๊ฒŒ์ž„์œผ๋กœ ์ œํ•œ๋˜์–ด ์žˆ์–ด, ์‹ค์ œ ์„ธ๊ณ„์˜ ๋” ๋ณต์žกํ•˜๊ณ  ๋™์ ์ธ ํ™˜๊ฒฝ์œผ๋กœ์˜ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ์— ๋Œ€ํ•œ ์ถ”๊ฐ€์ ์ธ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘