๋ณธ ๋
ผ๋ฌธ์ ๊ธฐ์กด ์ง์ ์ ํธ๋ ์ต์ ํ(DPO) ๋ฐฉ๋ฒ๋ก ์ ํ๊ณ๋ฅผ ์ง์ ํ๋ฉฐ, ์๋ต ์์ค์ Bradley-Terry(BT) ๋ชจ๋ธ์ด ์๋ฌต์ ์ผ๋ก๋ง ์๊ธฐํ๊ท์ ์ด๋ผ๊ณ ๊ฐ์ ํ ์ ์ ๊ฐ์ ํ๊ณ ์ ํฉ๋๋ค. ์ด๋ฅผ ์ํด ์ ์๋ Autoregressive DPO(ADPO)๋ BT ๋ชจ๋ธ ์ ์ฉ ์ ์ ๋ช
์์ ์ผ๋ก ์๊ธฐํ๊ท ๊ฐ์ ์ ํตํฉํ์ฌ, DPO ๋ชฉํ ํจ์์ ๋ก๊ทธ-์๊ทธ๋ชจ์ด๋ ์ธ๋ถ๋ก ํฉ์ฐ ์ฐ์ฐ์ ์ด๋์ํค๋ ์๋ก์ด ์์ค ํจ์ ํํ๋ฅผ ๋์ถํฉ๋๋ค. ADPO๋ ์ด๋ก ์ ๋ถ์์ ํตํด ํ ํฐ ๊ธธ์ด $\mu$์ ํผ๋๋ฐฑ ๊ธธ์ด $\mu'$๋ผ๋ ๋ ๊ฐ์ง ๊ธธ์ด ์ฒ๋๋ฅผ ๋ช
ํํ ๊ตฌ๋ถํ๊ณ LLM ์ ํธ๋ ์ต์ ํ์ ๋ฏธ์น๋ ์ํฅ์ ๋ถ์ํฉ๋๋ค.