Sign In

CausalGDP: Causality-Guided Diffusion Policies for Reinforcement Learning

Created by
  • Haebom
Category
Empty

์ €์ž

Xiaofeng Xiao, Xiao Hu, Yang Ye, Xubo Yue

๐Ÿ’ก ๊ฐœ์š”

๊ธฐ์กด ๊ฐ•ํ™”ํ•™์Šต(RL)์˜ ํ™•์‚ฐ ๊ธฐ๋ฐ˜ ์ •์ฑ…์€ ๋ณต์žกํ•œ ๊ณ ์ฐจ์› ํ–‰๋™ ๋ถ„ํฌ๋ฅผ ๋ชจ๋ธ๋งํ•˜์—ฌ RL ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค์ง€๋งŒ, ์ƒํƒœ, ํ–‰๋™, ๋ณด์ƒ ๊ฐ„์˜ ํ†ต๊ณ„์  ์—ฐ๊ด€์„ฑ์—๋งŒ ์˜์กดํ•˜๋ฉฐ ์ธ๊ณผ ๊ด€๊ณ„๋ฅผ ๋ช…ํ™•ํžˆ ๊ณ ๋ คํ•˜์ง€ ๋ชปํ•˜๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์€ ์ธ๊ณผ ์ถ”๋ก ์„ ํ™•์‚ฐ ๊ธฐ๋ฐ˜ RL์— ํ†ตํ•ฉํ•˜๋Š” CausalGDP๋ผ๋Š” ํ†ตํ•ฉ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ์ •์ฑ… ์ตœ์ ํ™”๋ฅผ ํ†ตํ•ด ์‹ค์ œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์ด๋Œ์–ด๋‚ด๋Š” ํ–‰๋™ ๊ตฌ์„ฑ ์š”์†Œ์— ์ง‘์ค‘ํ•ฉ๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, CausalGDP๋Š” ๋ณต์žกํ•˜๊ณ  ๊ณ ์ฐจ์›์ ์ธ ์ œ์–ด ์ž‘์—…์—์„œ ์ตœ์ฒจ๋‹จ ํ™•์‚ฐ ๊ธฐ๋ฐ˜ ๋ฐ ์˜คํ”„๋ผ์ธ RL ๋ฐฉ๋ฒ• ๋Œ€๋น„ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๊ฑฐ๋‚˜ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ์ผ๊ด€๋˜๊ฒŒ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
๊ฐ•ํ™”ํ•™์Šต์—์„œ ํ†ต๊ณ„์  ์—ฐ๊ด€์„ฑ์„ ๋„˜์–ด ์ธ๊ณผ ๊ด€๊ณ„๋ฅผ ๋ช…์‹œ์ ์œผ๋กœ ๊ณ ๋ คํ•˜์—ฌ ์ •์ฑ… ์ตœ์ ํ™”์˜ ํšจ์œจ์„ฑ๊ณผ ์„ฑ๋Šฅ์„ ๋†’์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
ํ™•์‚ฐ ๋ชจ๋ธ์— ์ธ๊ณผ์  ๋™์—ญํ•™ ๋ชจ๋ธ์„ ํ†ตํ•ฉํ•จ์œผ๋กœ์จ, ์‹ค์ œ ์ƒํ˜ธ์ž‘์šฉ ๊ณผ์ •์—์„œ ์ •์ฑ…์„ ๋”์šฑ ํšจ๊ณผ์ ์œผ๋กœ ์•ˆ๋‚ดํ•˜๊ณ  ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๋ณต์žกํ•œ ์ธ๊ณผ ๊ด€๊ณ„๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ํ•™์Šตํ•˜๊ณ  ์ด๋ฅผ ์ •์ฑ… ๊ฒฐ์ •์— ํšจ๊ณผ์ ์œผ๋กœ ํ†ตํ•ฉํ•˜๋Š” ๊ฒƒ์ด CausalGDP์˜ ํ•ต์‹ฌ ๊ณผ์ œ์ด๋ฉฐ, ๋ฐ์ดํ„ฐ ํฌ์†Œ์„ฑ์ด๋‚˜ ๋น„์ •์ƒ์ ์ธ ํ™˜๊ฒฝ ๋ณ€ํ™”์— ๋Œ€ํ•œ ๊ฐ•๊ฑด์„ฑ์€ ์ถ”๊ฐ€ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘