๋ณธ ๋
ผ๋ฌธ์ ํญ๊ณต๊ธฐ์ ํก๋ฐฉํฅ ์์ธ ์ ์ด ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๋ฉฐ, ๋ง๋ฅด์ฝํ ๊ฒฐ์ ๊ณผ์ (MDP)์ ๋์นญ์ฑ์ ํ์ฉํ์ฌ ์ํ ํจ์จ์ ์ธ ์คํ๋ผ์ธ ๊ฐํํ์ต(RL) ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ์ ์๋ ๋์นญ ๋ฐ์ดํฐ ์ฆ๊ฐ ๊ธฐ๋ฒ์ Deep Deterministic Policy Gradient (DDPG) ์๊ณ ๋ฆฌ์ฆ์ ์ํ-ํ๋ ๊ณต๊ฐ ์ปค๋ฒ๋ฆฌ์ง๋ฅผ ๋์ด๊ณ , ์ถ๊ฐ์ ์ธ ๋ณด์กฐ ํฌ๋ฆฌํฑ ๋คํธ์ํฌ๋ฅผ ํตํด ์ํ ํ์ฉ ํจ์จ์ฑ์ ์ฆ๋์ํจ๋ค. ์ด๋ฅผ ํตํด ํญ๊ณต๊ธฐ ๋ชจ๋ธ์ ๋์นญ์ฑ์ ๊ฒ์ฆํ๊ณ , ์ ์ด ์๋ฎฌ๋ ์ด์
์์ ์ ์ฑ
์๋ ด ๊ฐ์ํ๋ฅผ ์
์ฆํ๋ค.