haebom
Sign In
Many Preferences, Few Policies: Towards Scalable Language Model Personalization
Created by
Haebom
Category
Empty
μ μ
Cheol Woo Kim, Jai Moondra, Roozbeh Nahavandi, Andrew Perrault, Milind Tambe, Swati Gupta
π‘ κ°μ
μ΄ λ Όλ¬Έμ μλ§μ μ¬μ©μ μ νΈλλ₯Ό ν¨μ¨μ μΌλ‘ λ°μνλ©΄μλ κ° μ¬μ©μλ§λ€ λ³λμ LLMμ μ μ§νλ λΉν¨μ¨μ±μ ν΄κ²°νκ³ μ ν©λλ€. μ΄λ₯Ό μν΄ λ€μ°¨μ μ¬μ©μ μ νΈλλ₯Ό μμμ λνμ μΈ LLM ν¬νΈν΄λ¦¬μ€λ‘ μμΆνλ PALM(Portfolio of Aligned LLMs) μκ³ λ¦¬μ¦μ μ μν©λλ€. PALMμ μ΄λ‘ μ 보μ₯μ λ°νμΌλ‘ μμ€ν λΉμ©κ³Ό κ°μΈν μμ€ κ°μ κ· νμ λ§μΆκ³ , μ¬μ©μ μ νΈλ λ€μμ±μ ν¨κ³Όμ μΌλ‘ 컀λ²νλ LLM ν¬νΈν΄λ¦¬μ€λ₯Ό μμ±ν©λλ€.
π μμ¬μ λ° νκ³
β’
LLM κ°μΈνλ₯Ό μν μ€μ©μ μΈ μ κ·Ό λ°©μμΌλ‘, μ νλ μμμΌλ‘λ κ΄λ²μν μ¬μ©μ μ νΈλλ₯Ό μΆ©μ‘±μν¬ μ μλ κ°λ₯μ±μ μ μν©λλ€.
β’
PALMμ μ΄λ‘ μ 보μ₯μ ν΅ν΄ ν¬νΈν΄λ¦¬μ€μ ν¬κΈ°μ κ·Όμ¬ μ±λ₯μ λμμ λ§μ‘±μμΌ, κΈ°μ‘΄ λ°©μ λλΉ ν¨μ¨μ±κ³Ό μ±λ₯μ κ°μ ν©λλ€.
β’
λ€μν μ¬μ©μ μ νΈλ 곡κ°μ ν¨κ³Όμ μΌλ‘ 컀λ²νκΈ° μν LLM ν¬νΈν΄λ¦¬μ€μ νμμ±μ κ°μ‘°νλ©°, μμ€ν λΉμ©κ³Ό κ°μΈν μ¬μ΄μ νΈλ μ΄λμ€νλ₯Ό λͺ νν ν©λλ€.
β’
μ μλ λ°©λ²λ‘ μ μ€μ μ μ© μ, λ€μν LLMμ μ΄κΈ°ν λ° νλ ¨ κ³Όμ μ λν μΆκ°μ μΈ μ°κ΅¬μ μ΅μ νκ° νμν μ μμ΅λλ€.
PDF 보기
Made with Slashpage