๋ณธ ์ฐ๊ตฌ๋ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ด ์กฐ์์ ์ธ ์ ์ ๋ฌผ ์์ฑ์ ์
์ฉ๋ ์ ์๋ค๋ ๋ฌธ์ ๋ฅผ ์ ๊ธฐํ๋ฉฐ, LLM์๊ฒ ์ ์ ๋ชฉํ๋ฅผ ๋ถ์ฌํ๊ณ ์ด๋ฅผ ๋ถ์ํฉ๋๋ค. ๋ถ์ ๊ฒฐ๊ณผ, LLM์ ํ๋กฌํํธ์ ๋ฐ๋ผ ์ ์ ์ ํ๋์ ๋ณด์ด๋ฉฐ ๋ค์ํ ์์ฌ ๊ธฐ๋ฒ์ ์ฌ์ฉํจ์ ํ์ธํ์ต๋๋ค. ๋ํ, ์ง๋ ํ์ต ๋ฏธ์ธ ์กฐ์ (SFT), ์ง์ ์ ํธ๋ ์ต์ ํ(DPO), ORPO(Odds Ratio Preference Optimization)๋ฅผ ํตํด ์ด๋ฌํ ๊ฒฝํฅ์ ์ํํ๋ ๋ฐฉ๋ฒ์ ํ์ํ์ผ๋ฉฐ, ORPO๊ฐ ๊ฐ์ฅ ํจ๊ณผ์ ์ธ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค.