λ³Έ λ
Όλ¬Έμ κΈ°μ‘΄ DPO λ°©μμ΄ μ§μ μ§μ½μ μμ±μμ λ°μνλ μ μ°½μ± νΈν₯ λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄, λ
Όλ¦¬μ μ νμ±κ³Ό μ μ°½μ±μ κ· ν μκ² ν보νλ RLearner-LLMκ³Ό Hybrid-DPOλ₯Ό μ μν©λλ€. Hybrid-DPOλ DeBERTa-v3 NLI μ νΈμ κ²μ¦ LLM μ μλ₯Ό μ΅ν©νμ¬ μΈκ° μ£Όμ μμ΄λ μλνλ μ νΈλ νμ΄νλΌμΈμ ꡬμΆν©λλ€. μ΄λ₯Ό ν΅ν΄ SFT λͺ¨λΈ λλΉ NLI μ νλλ₯Ό μ΅λ 6λ°° ν₯μμν€κ³ , λ€μν λͺ¨λΈ μν€ν
μ²μ νλ¬Έ λΆμΌμμ μΌκ΄λ μ±λ₯ κ°μ μ λ¬μ±νμ΅λλ€.