๋ณธ ๋
ผ๋ฌธ์ ๋ณต์กํ ์ถ๋ก ์์
์์ ๋ช
ํํ ๋ณด์ ํจ์ ์ ์์ ์ด๋ ค์์ ํด๊ฒฐํ๊ธฐ ์ํด ์ ๋ฌธ๊ฐ ์์ฐ์ผ๋ก๋ถํฐ ์ถ๋ก ๋ณด์์ ํ์ตํ๋ Reasoning Adversarial Inverse Reinforcement Learning (R-AIRL)์ ์ ์ํฉ๋๋ค. R-AIRL์ ์ ๋ฌธ๊ฐ์ ์ฌ๊ณ ๊ณผ์ (Chain-of-Thought)์์ ์ง์ ์ ์ผ๋ก ์ถ๋ก ๊ณผ์ ์ ๋ชจ๋ฐฉํ๋ ๋์ , ์ด๋ฉด์ ์จ๊ฒจ์ง ๋ณด์ ํจ์๋ฅผ ์ถ๋ก ํฉ๋๋ค. ์ด๋ฅผ ํตํด ํ๋ จ ์ ํธ ์ ๊ณต, ์ถ๋ก ์ ์ฌ์์ํ, ๊ทธ๋ฆฌ๊ณ ์ถ๋ก ์คํจ ์์น ํ์
๋ฑ ๋ค์ํ ๋จ๊ณ์์ ํจ๊ณผ์ ์ธ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ค๋๋ค.