Sign In

Sample-Efficient Neurosymbolic Deep Reinforcement Learning

Created by
  • Haebom
Category
Empty

์ €์ž

Celeste Veronese, Alessandro Farinelli, Daniele Meli

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ์‹ฌ์ธต ๊ฐ•ํ™”ํ•™์Šต(DRL)์ด ์š”๊ตฌํ•˜๋Š” ๋ฐฉ๋Œ€ํ•œ ํ•™์Šต ๋ฐ์ดํ„ฐ์™€ ์ž‘์€ ๊ทœ๋ชจ์˜ ํ›ˆ๋ จ ํ™˜๊ฒฝ์„ ๋ฒ—์–ด๋‚œ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ ๋ถ€์กฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ๋ฐฐ๊ฒฝ ์ง€์‹์œผ๋กœ์„œ์˜ ๊ธฐํ˜ธ์ (symbolic) ์ •๋ณด๋ฅผ ํ†ตํ•ฉํ•˜๋Š” ์‹ ๊ฒฝ-๊ธฐํ˜ธ ๊ฐ•ํ™”ํ•™์Šต(neuro-symbolic DRL) ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ๊ฐ„๋‹จํ•œ ํ™˜๊ฒฝ์—์„œ ์Šต๋“๋œ ๋ถ€๋ถ„ ์ •์ฑ…์„ ๋…ผ๋ฆฌ ๊ทœ์น™์œผ๋กœ ํ‘œํ˜„ํ•˜๊ณ , ์ด๋ฅผ ํ†ตํ•ด ํƒ์ƒ‰ ์‹œ ํ–‰๋™ ๋ถ„ํฌ๋ฅผ ํŽธํ–ฅ์‹œํ‚ค๊ฑฐ๋‚˜ ๊ฐ€์น˜ ํ•จ์ˆ˜๋ฅผ ์กฐ์ •ํ•จ์œผ๋กœ์จ ํ•™์Šต์„ ๊ฐ€์†ํ™”ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ํŠนํžˆ ํฌ์†Œ ๋ณด์ƒ ํ™˜๊ฒฝ์ด๋‚˜ ์žฅ๊ธฐ ๊ณ„ํš์ด ํ•„์š”ํ•œ ๋ณต์žกํ•œ ๋ฌธ์ œ์—์„œ ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ, ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ, ๊ทธ๋ฆฌ๊ณ  ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
๊ธฐ์กด DRL์˜ ๋‚ฎ์€ ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ๊ณผ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ๊ธฐํ˜ธ์  ์ง€์‹์„ ํ™œ์šฉํ•˜๋Š” ํšจ๊ณผ์ ์ธ ์‹ ๊ฒฝ-๊ธฐํ˜ธ์  ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
ํ•™์Šต๋œ ๋ถ€๋ถ„ ์ •์ฑ…์„ ๋…ผ๋ฆฌ ๊ทœ์น™์œผ๋กœ ํ‘œํ˜„ํ•˜๊ณ  ์ด๋ฅผ ์˜จ๋ผ์ธ ์ถ”๋ก ์— ํ™œ์šฉํ•˜๋Š” ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ DRL์˜ ํ•™์Šต ๊ณผ์ •์— ์œ ์šฉํ•œ ์‚ฌ์ „ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ, ํŠนํžˆ ํฌ์†Œ ๋ณด์ƒ ํ™˜๊ฒฝ์—์„œ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•๋ก ์€ ํ•™์Šต ๊ณผ์ •์˜ ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ๊ณผ ์‹ ๋ขฐ์„ฑ์„ ๋†’์ด๋Š” ๋™์‹œ์—, ๋ณต์žกํ•˜๊ณ  ๋ณด์ด์ง€ ์•Š๋Š” ๊ณผ์ œ์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๋…ผ๋ฌธ์—์„œ ์ œ์‹œ๋œ ๊ณผ์ œ๋Š” ์ฃผ๋กœ ๊ทธ๋ฆฌ๋“œ์›”๋“œ ํ™˜๊ฒฝ์ด์—ˆ์œผ๋ฏ€๋กœ, ๋” ๋ณต์žกํ•˜๊ณ  ํ˜„์‹ค์ ์ธ ํ™˜๊ฒฝ์—์„œ์˜ ๊ฒ€์ฆ๊ณผ, ๋‹ค์–‘ํ•œ ์ข…๋ฅ˜์˜ ๊ธฐํ˜ธ์  ์ง€์‹ ํ†ตํ•ฉ ๋ฐฉ์‹์— ๋Œ€ํ•œ ์ถ”๊ฐ€ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘