๋ณธ ๋
ผ๋ฌธ์ ์ค์ ๊ฐํํ์ต(RL) ์์ด์ ํธ์ ๋ฐฐํฌ ์ ๋ฐ์ํ๋ ๋ถํฌ ๋ณํ ๋ฌธ์ ์ ๋์ํ๊ธฐ ์ํด, ์์ด์ ํธ์ ํ๊ฒฝ ๊ฐ์ ์ํธ์์ฉ ํจ๊ณผ๋ฅผ ์ค์๊ฐ์ผ๋ก ์ธก์ ํ๋ ์๋ก์ด ์งํ์ธ '์ด์ค์์ธก์ฑ(bipredictability, P)'์ ์ ์ํฉ๋๋ค. ์ด์ค์์ธก์ฑ์ ๊ด์ธก-ํ๋-๊ฒฐ๊ณผ ๋ฃจํ ๋ด ๊ณต์ ์ ๋ณด ๋น์จ์ ์ธก์ ํ๋ฉฐ, ์ด๋ฅผ ๊ณ์ฐํ๋ '์ ๋ณด ๋์งํธ ํธ์(IDT)' ๋ชจ๋ํฐ๋ฅผ ๊ฐ๋ฐํ์ต๋๋ค. ์คํ ๊ฒฐ๊ณผ, ์ด์ค์์ธก์ฑ์ ๊ธฐ์กด ๋ณด์ ๊ธฐ๋ฐ ๋ชจ๋ํฐ๋ง๋ณด๋ค ํจ์ฌ ๋น ๋ฅด๊ณ ์ ํํ๊ฒ ์์ด์ ํธ-ํ๊ฒฝ ์ํธ์์ฉ ์ ํ๋ฅผ ๊ฐ์งํจ์ ๋ณด์ฌ์ค๋๋ค.