haebom
Sign In
Do It for HER: First-Order Temporal Logic Reward Specification in Reinforcement Learning (Extended Version)
Created by
Haebom
Category
Empty
์ ์
Pierriccardo Olivieri, Fausto Lasca, Alessandro Gianola, Matteo Papini
๐ก ๊ฐ์
๋ณธ ์ฐ๊ตฌ๋ ๋๊ท๋ชจ ์ํ ๊ณต๊ฐ์ ๊ฐ์ง ๋ง๋ฅด์ฝํ ๊ฒฐ์ ๊ณผ์ (MDP)์์ ๋น-๋ง๋ฅด์ฝํ์ ๋ณด์์ ๋ ผ๋ฆฌ์ ์ผ๋ก ๋ช ์ธํ๊ธฐ ์ํ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ์ ์๋ ๋ฐฉ๋ฒ๋ก ์ ์ ์ด(predicate)๋ฅผ ๋จ์ํ ์ฐธ/๊ฑฐ์ง ๋ณ์๊ฐ ์๋ ์์์ 1์ฐจ ์ด๋ก ์ ๋ํ 1์ฐจ ๊ณต์์ผ๋ก ํํํ ์ ์๋ LTLfMT(Linear Temporal Logic Modulo Theories over finite traces)๋ฅผ ํ์ฉํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ณต์กํ ํ์คํฌ๋ฅผ ๋น์ ํ ๋ฐ ์ด์ข ๋ฐ์ดํฐ ๋๋ฉ์ธ์์ ํตํฉ์ ์ด๊ณ ์ฌ์ฌ์ฉ ๊ฐ๋ฅํ ๋ฐฉ์์ผ๋ก ๋ช ์ธํ ์ ์์ต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
๊ธฐ์กด LTLf๋ณด๋ค ๋ฐ์ด๋ ํํ๋ ฅ์ผ๋ก ๋ณต์กํ๊ณ ์ด์ง์ ์ธ ๋ฐ์ดํฐ ๊ธฐ๋ฐ์ ํ์คํฌ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๋ช ์ธ ๊ฐ๋ฅํฉ๋๋ค.
โข
1์ฐจ ๋ ผ๋ฆฌ ๋ช ์ธ๋ฅผ ๋ณด์ ๋จธ์ ๊ณผ HER(Hindsight Experience Replay)์ ๊ฒฐํฉํ์ฌ ๋ณด์ ํฌ์์ฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ํจ์จ์ ์ธ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
โข
LTLfMT์ ํํ๋ ฅ ์ฆ๊ฐ๋ก ์ธํ ์ด๋ก ์ , ๊ณ์ฐ์ ๋ณต์ก์ฑ ์ฆ๊ฐ๊ฐ ์กด์ฌํ๋ฉฐ, ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ tractableํ LTLfMT ์กฐ๊ฐ์ ์๋ณํ์ต๋๋ค.
โข
๋น์ ํ ์ฐ์ ์ด๋ก ์ ํ์ฉํ ์ฐ์ ์ ์ด ํ๊ฒฝ์์์ ํ๊ฐ๋ฅผ ํตํด ๋ณต์กํ ๋ชฉํ๋ฅผ ๊ฐ์ง ํ์คํฌ ํด๊ฒฐ์ HER์ ๋ง์ถคํ ๊ตฌํ์ด ์ค์ํจ์ ์ ์ฆํ์ต๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage