λ³Έ λ
Όλ¬Έμ μΆκ° λ°μ΄ν° μμ΄ LLMμ μ±λ₯μ ν₯μμν€κΈ° μν΄ ν둬ννΈμ μλ΅ κ°μ μνΈ μ 보λμ μ΅λννλ μλ‘μ΄ λ°©λ²λ‘ μΈ MIPO (Mutual Information Preference Optimization)λ₯Ό μ μν©λλ€. MIPOλ μ¬λ°λ₯Έ ν둬ννΈμ λν κΈμ μ μλ΅κ³Ό 무μμ ν둬ννΈμ λν λΆμ μ μλ΅μ μμ±νμ¬ μ νΈλ μμ ꡬμΆνκ³ , μ΄λ₯Ό ν΅ν΄ LLMμ ν둬ννΈ-μλ΅ μνΈ μ 보λμ κ·Ήλννλ νμ΅μ μνν©λλ€. μ€ν κ²°κ³Ό, MIPOλ νΉν κ°μΈν νμ€ν¬μμ μλΉν μ±λ₯ ν₯μμ 보μμΌλ©°, μΆκ° λ°μ΄ν°λ μΈλΆ κ°λ
μμ΄λ κ²μ¦ κ°λ₯ν μμμμλ μ μλ―Έν μ±λ₯ κ°μ μ κ°μ Έμμ΅λλ€.