haebom
Sign In
Personalizing LLMs with Binary Feedback: A Preference-Corrected Optimization Framework
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Xilai Ma, Liye Zhao, Weijun Yao, Haibing Di, Wenya Wang, Jing Li
π‘ κ°μ
λ³Έ λ Όλ¬Έμ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM) κ°μΈνλ₯Ό μν΄ μ¬μ©μ μ νΈλμ κΈ°λ°ν μ΄μ§ νΌλλ°±μ νμ©νλ C-BPO νλ μμν¬λ₯Ό μ μν©λλ€. C-BPOλ νΉμ μ¬μ©μμ λ°μ΄ν°λ₯Ό κΈμ μ μ νΈλ‘, λ€λ₯Έ μ¬μ©μμ λ°μ΄ν°λ₯Ό μ묡μ λΆμ μ νΈλ‘ κ°μ£Όνμ¬ μ¬μ©μ κ°μ μ°¨μ΄λ₯Ό ν¨κ³Όμ μΌλ‘ ν¬μ°©ν©λλ€. PU νμ΅ μ΄λ‘ μ κΈ°λ°ν κ°κ΄ ν¨μλ₯Ό ν΅ν΄ μμ κ΄λ ¨ μ§μμ΄ μλͺ» νλν°λ₯Ό λ°λ κ²μ λ°©μ§νλ©°, λ μ°½μ μΈ νΉμ±μ μ μ§νλ©΄μλ μ λ°μ μΈ μ μ©μ±μ ν΄μΉμ§ μλ κ°μΈνλ₯Ό λ¬μ±ν©λλ€.
π μμ¬μ λ° νκ³
β’
μ¬μ©μ κ°μ μ°¨μ΄λ₯Ό κ³ λ €ν LLM κ°μΈνμ μ€μμ±μ κ°μ‘°νκ³ , μ΄λ₯Ό ν¨κ³Όμ μΌλ‘ λͺ¨λΈλ§νλ C-BPO νλ μμν¬λ₯Ό μ μν©λλ€.
β’
PU νμ΅ μ΄λ‘ μ μ μ©νμ¬ μλͺ»λ λΆμ μ νΈλ₯Ό μ μ ν¨μΌλ‘μ¨, κ°μΈν κ³Όμ μμ μΌλ°μ μΈ μ±λ₯ μ νλ₯Ό μ΅μννλ λ°©λ²μ μ μν©λλ€.
β’
λ€μν κ°μΈν μμ λ° LLMμμ κΈ°μ‘΄ λ°©λ²λ‘ λλΉ μ°μν μ±λ₯μ μ μ¦νλ©°, μ΄μ§ νΌλλ°± κΈ°λ° κ°μΈνμ μ€ν¨μ±μ 보μ¬μ€λλ€.
β’
(νκ³μ λλ ν₯ν κ³Όμ ) μ€μ νκ²½μμμ μ μ© μ λ°μν μ μλ λ°μ΄ν° νΈν₯ λ¬Έμ λ, 'λ€λ₯Έ μ¬μ©μ' λ°μ΄ν°μ λΆμ μ νΈλ‘μμ μ μ μ±μ λν μΆκ°μ μΈ κ²μ¦ λ° κ°μ μ°κ΅¬κ° νμν©λλ€.
PDF 보기
Made with Slashpage