Sign In

EfficientTDMPC: Improved MPC Objectives for Sample-Efficient Continuous Control

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Thomas Evers, Cristian Meo, Wendelin Bohmer, Justin Dauwels, Yaniv Oren

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ์—ฐ๊ตฌ๋Š” ์—ฐ์† ์ œ์–ด ๋ฌธ์ œ์— ๋Œ€ํ•œ ํšจ์œจ์ ์ธ ์ƒ˜ํ”Œ ํ•™์Šต์„ ๋ชฉํ‘œ๋กœ ํ•˜๋Š” ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™”ํ•™์Šต ๋ฐฉ๋ฒ•๋ก ์ธ EfficientTDMPC๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. EfficientTDMPC๋Š” ๋ชจ๋ธ ๋ฐ ๊ฐ€์น˜ ๋„คํŠธ์›Œํฌ ํ•™์Šต์—์„œ ๋ฐœ์ƒํ•˜๋Š” ์˜ค๋ฅ˜๋ฅผ ์ค„์ด๊ธฐ ์œ„ํ•ด ์•™์ƒ๋ธ” ๋™์—ญํ•™ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๊ณ , ๋ฐ˜ํ™˜ ์ถ”์ •์น˜์˜ ๋ถˆํ™•์‹ค์„ฑ์„ ํŽ˜๋„ํ‹ฐ๋กœ ๋ถ€์—ฌํ•˜๋Š” ๋ฐฉ์‹์„ ๋„์ž…ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ์„ ๋†’์ด๊ณ , ํŠนํžˆ ๋‚ฎ์€ ๋ฐ์ดํ„ฐ ํ™˜๊ฒฝ์—์„œ HumanoidBench-Hard์™€ DMC hard ๋ฒค์น˜๋งˆํฌ์—์„œ ์ตœ์‹  ๊ธฐ์ˆ  ์ˆ˜์ค€(SOTA)์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
์•™์ƒ๋ธ” ๋ชจ๋ธ๋ง๊ณผ ๋ถˆํ™•์‹ค์„ฑ ํŽ˜๋„ํ‹ฐ๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™”ํ•™์Šต์˜ ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๋†’์€ UTD ๋น„์œจ ํ™œ์šฉ ๋Šฅ๋ ฅ์„ ๊ฐœ์„ ํ•˜์—ฌ ๋” ์ ์€ ๋ฐ์ดํ„ฐ๋กœ๋„ ๋†’์€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•๋ก ์˜ ๋ณต์žก์„ฑ ์ฆ๊ฐ€ ๋ฐ ํŠน์ • ๋ฒค์น˜๋งˆํฌ์—์„œ์˜ ์„ฑ๋Šฅ ํ•œ๊ณ„๋Š” ํ–ฅํ›„ ์—ฐ๊ตฌ ๊ณผ์ œ๋กœ ๋‚จ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘