Sign In

Entropy-Regularized Adjoint Matching for Offline RL

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Abdelghani Ghanem, Mounir Ghogho

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ์˜คํ”„๋ผ์ธ ๊ฐ•ํ™”ํ•™์Šต์—์„œ ๋ณต์žกํ•˜๊ณ  ๋‹ค๋ด‰์  ํ–‰๋™์„ ํฌ์ฐฉํ•  ์ˆ˜ ์žˆ๋Š” ์ƒ์„ฑ ๋ชจ๋ธ์˜ ํ†ตํ•ฉ์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด QAM ๋ฐฉ๋ฒ•๋ก ์ด ๊ณ ์ •๋œ ํ–‰๋™ ๋ถ„ํฌ์— ์˜์กดํ•˜์—ฌ ๋ฐœ์ƒํ•˜๋Š” ์ธ๊ธฐ ํŽธํ–ฅ๊ณผ ์ง€์› ์ œ์•ฝ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ์ œ์•ˆํ•˜๋Š” Maximum Entropy Adjoint Matching (ME-AM)์€ ๊ฑฐ์šธ ํ•˜๊ฐ• ๊ธฐ๋ฐ˜ ์—”ํŠธ๋กœํ”ผ ์ตœ๋Œ€ํ™”์™€ ํ˜ผํ•ฉ ํ–‰๋™ ์‚ฌ์ „(Mixture Behavior Prior)์„ ํ†ตํ•ด ์ด๋ฅผ ๊ทน๋ณตํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ME-AM์€ ์˜คํ”„๋ผ์ธ ๋ฐ์ดํ„ฐ์—์„œ ์ตœ์ ์˜ ์ •์ฑ…์„ ์ถ”์ถœํ•˜๊ณ , ๋‚ฎ์€ ๋ฐ์ดํ„ฐ ๋ฐ€๋„ ์˜์—ญ์—์„œ๋„ ๊ณ ๋ณด์ƒ ํ–‰๋™์„ ํƒ์ƒ‰ํ•˜๋ฉฐ, ์ƒ์„ฑ ๋ฒกํ„ฐ์žฅ์˜ ์ ˆ๋Œ€ ์—ฐ์†์„ฑ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
์˜คํ”„๋ผ์ธ ๊ฐ•ํ™”ํ•™์Šต์—์„œ ์ƒ์„ฑ ๋ชจ๋ธ์˜ ์œ ์—ฐ์„ฑ์„ ํ™œ์šฉํ•˜๋ฉด์„œ๋„ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ก ์˜ ํŽธํ–ฅ ๋ฌธ์ œ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์™„ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
์—”ํŠธ๋กœํ”ผ ์ตœ๋Œ€ํ™”์™€ ๊ธฐํ•˜ํ•™์  ์ง€์› ํ™•์žฅ์„ ํ†ตํ•ด ํฌ์†Œ ๋ณด์ƒ ํ™˜๊ฒฝ์—์„œ๋„ ๊ณ ๋ณด์ƒ ํ–‰๋™ ํƒ์ƒ‰ ๋ฐ ์ตœ์  ์ •์ฑ… ์ถ”์ถœ ๊ฐ€๋Šฅ์„ฑ์„ ๋†’์˜€์Šต๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ ME-AM์€ ๋‹ค์–‘ํ•œ ํฌ์†Œ ๋ณด์ƒ ์—ฐ์† ์ œ์–ด ํ™˜๊ฒฝ์—์„œ ๊ธฐ์กด SOTA ๋ฐฉ๋ฒ•๋ก ๊ณผ ๊ฒฝ์Ÿํ•˜๊ฑฐ๋‚˜ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.
โ€ข
ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ME-AM์˜ ๊ณ„์‚ฐ ๋ณต์žก์„ฑ์„ ์ตœ์ ํ™”ํ•˜๊ฑฐ๋‚˜, ์‹ค์ œ ๋กœ๋ด‡ ์ œ์–ด์™€ ๊ฐ™์€ ๋” ๋ณต์žกํ•˜๊ณ  ํ˜„์‹ค์ ์ธ ํ™˜๊ฒฝ์— ์ ์šฉํ•˜๋Š” ๋ฐฉ์•ˆ์„ ํƒ๊ตฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘