Sign In

Adaptive Action Chunking via Multi-Chunk Q Value Estimation

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Yongjae Shin, Jongseong Chae, Seongmin Kim, Jongeui Park, Youngchul Sung

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๊ฐ•ํ™”ํ•™์Šต์—์„œ ํ–‰๋™ ๋ฉ์–ด๋ฆฌ(action chunking)์˜ ๊ณ ์ •๋œ ๊ธธ์ด๋กœ ์ธํ•œ ์„ฑ๋Šฅ ๋ณ‘๋ชฉ ํ˜„์ƒ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ์ƒํƒœ์™€ ํƒœ์Šคํฌ์— ๋”ฐ๋ผ ๋™์ ์œผ๋กœ ๋ฉ์–ด๋ฆฌ ๊ธธ์ด๋ฅผ ์กฐ์ ˆํ•˜๋Š” ์ƒˆ๋กœ์šด ์•Œ๊ณ ๋ฆฌ์ฆ˜์ธ Adaptive Action CHunking (ACH)์„ ์ œ์•ˆํ•œ๋‹ค. ACH๋Š” ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ ์•„ํ‚คํ…์ฒ˜๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์—ฌ๋Ÿฌ ํ›„๋ณด ๋ฉ์–ด๋ฆฌ ๊ธธ์ด์— ๋Œ€ํ•œ ๊ฐ€์น˜ ํ•จ์ˆ˜๋ฅผ ๋™์‹œ์— ์ถ”์ •ํ•˜๊ณ , ํ˜„์žฌ ์ƒํƒœ์— ๊ฐ€์žฅ ์ ํ•ฉํ•œ ๋ฉ์–ด๋ฆฌ ๊ธธ์ด๋ฅผ ์„ ํƒํ•œ๋‹ค. ์ด๋Š” ๋ณต์žกํ•œ ํ™˜๊ฒฝ์—์„œ ๊ณ ์ • ๊ธธ์ด ๋ฐฉ์‹ ๋Œ€๋น„ ์šฐ์ˆ˜ํ•œ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ๊ณผ ํ•™์Šต ํšจ์œจ์„ฑ์„ ๋ณด์—ฌ์ค€๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
์ ์‘์ ์ธ ๋ฉ์–ด๋ฆฌ ๊ธธ์ด ์„ค์ •์˜ ์ค‘์š”์„ฑ: ๊ธฐ์กด์˜ ๊ณ ์ •๋œ ๋ฉ์–ด๋ฆฌ ๊ธธ์ด๋Š” ๋‹ค์–‘ํ•œ ์ƒํƒœ์™€ ํƒœ์Šคํฌ์— ์ตœ์ ํ™”๋˜์ง€ ๋ชปํ•˜๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ์œผ๋‚˜, ACH๋Š” ์ด๋ฅผ ๊ทน๋ณตํ•˜๊ณ  ๋™์ ์œผ๋กœ ๋ฉ์–ด๋ฆฌ ๊ธธ์ด๋ฅผ ์กฐ์ ˆํ•จ์œผ๋กœ์จ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์ด๋Œ์—ˆ๋‹ค.
โ€ข
ํšจ์œจ์ ์ธ ๋‹ค์ค‘ ๋ฉ์–ด๋ฆฌ ๊ฐ€์น˜ ์ถ”์ •: ํŠธ๋žœ์Šคํฌ๋จธ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋‹จ์ผ ์ˆœ์ „ํŒŒ ๊ณผ์ •์—์„œ ์—ฌ๋Ÿฌ ๋ฉ์–ด๋ฆฌ ๊ธธ์ด์— ๋Œ€ํ•œ ๊ฐ€์น˜ ํ•จ์ˆ˜๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ถ”์ •ํ•˜๋Š” ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์ œ์‹œํ•˜์˜€๋‹ค.
โ€ข
๋ณต์žกํ•œ ํ™˜๊ฒฝ์—์„œ์˜ ์šฐ์ˆ˜ํ•œ ์ผ๋ฐ˜ํ™” ๋ฐ ํ•™์Šต ํšจ์œจ์„ฑ: 34๊ฐœ์˜ ๋„์ „์ ์ธ ํƒœ์Šคํฌ์—์„œ ACH๊ฐ€ ๊ณ ์ • ๊ธธ์ด ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋ณด๋‹ค ์ผ๊ด€๋˜๊ฒŒ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, ๋ณต์žกํ•œ ํ™˜๊ฒฝ์—์„œ ์ ์‘๋ ฅ๊ณผ ํ•™์Šต ์†๋„๋ฅผ ํ–ฅ์ƒ์‹œ์ผฐ๋‹ค.
โ€ข
๋™์  ๋ฉ์–ด๋ฆฌ ๊ธธ์ด ๊ฒฐ์ •์˜ ์ž ์žฌ์  ๊ณ„์‚ฐ ๋ณต์žก์„ฑ: ์—ฌ๋Ÿฌ ๋ฉ์–ด๋ฆฌ ๊ธธ์ด์— ๋Œ€ํ•œ ๊ฐ€์น˜ ํ•จ์ˆ˜๋ฅผ ๋™์‹œ์— ์ถ”์ •ํ•˜๋Š” ๊ณผ์ •์—์„œ ๋ฐœ์ƒํ•˜๋Š” ๊ณ„์‚ฐ๋Ÿ‰ ์ฆ๊ฐ€ ๋ฐ ์ตœ์ ์˜ ๋ฉ์–ด๋ฆฌ ๊ธธ์ด ๊ฒฐ์ • ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ์ถ”๊ฐ€์ ์ธ ํƒ์ƒ‰์ด ํ•„์š”ํ•  ์ˆ˜ ์žˆ๋‹ค.
๐Ÿ‘