๋ณธ ๋
ผ๋ฌธ์ Q-learning์ ๊ณผ๋ํ๊ฐ ํธํฅ์ ์ํํ๋ Double Q-learning์ ์ฌ์ธต ๊ฐํํ์ต์ ์ ์ฉํ Deep Double Q-learning(DDQL)์ ์ ์ํฉ๋๋ค. DDQL์ ๋ ๊ฐ์ ๋
๋ฆฝ์ ์ธ Q ํจ์๋ฅผ ๋ช
์์ ์ผ๋ก ํ์ตํ๊ณ , ์ด๋ฅผ ํตํด ์ฌ์ธต ๊ฐํํ์ต์์ ๋ฐ์ํ๋ ๊ณผ๋ํ๊ฐ ํธํฅ์ ํจ๊ณผ์ ์ผ๋ก ์ค์
๋๋ค. Atari 2600 ๊ฒ์ 57๊ฐ์ ๋ํ ์คํ ๊ฒฐ๊ณผ, DDQL์ Double DQN ๋๋น ์ ๋ฐ์ ์ธ ์ฑ๋ฅ์ ํฅ์์ํค๋ฉฐ 47๊ฐ ๊ฒ์์์ ๋ ๋์ ์ฑ๊ณผ๋ฅผ ๋ณด์์ต๋๋ค.