Sign In

Many Preferences, Few Policies: Towards Scalable Language Model Personalization

Created by
  • Haebom
Category
Empty

μ €μž

Cheol Woo Kim, Jai Moondra, Roozbeh Nahavandi, Andrew Perrault, Milind Tambe, Swati Gupta

πŸ’‘ κ°œμš”

이 논문은 μˆ˜λ§Žμ€ μ‚¬μš©μž μ„ ν˜Έλ„λ₯Ό 효율적으둜 λ°˜μ˜ν•˜λ©΄μ„œλ„ 각 μ‚¬μš©μžλ§ˆλ‹€ λ³„λ„μ˜ LLM을 μœ μ§€ν•˜λŠ” λΉ„νš¨μœ¨μ„±μ„ ν•΄κ²°ν•˜κ³ μž ν•©λ‹ˆλ‹€. 이λ₯Ό μœ„ν•΄ 닀차원 μ‚¬μš©μž μ„ ν˜Έλ„λ₯Ό μ†Œμˆ˜μ˜ λŒ€ν‘œμ μΈ LLM 포트폴리였둜 μ••μΆ•ν•˜λŠ” PALM(Portfolio of Aligned LLMs) μ•Œκ³ λ¦¬μ¦˜μ„ μ œμ•ˆν•©λ‹ˆλ‹€. PALM은 이둠적 보μž₯을 λ°”νƒ•μœΌλ‘œ μ‹œμŠ€ν…œ λΉ„μš©κ³Ό κ°œμΈν™” μˆ˜μ€€ κ°„μ˜ κ· ν˜•μ„ λ§žμΆ”κ³ , μ‚¬μš©μž μ„ ν˜Έλ„ 닀양성을 효과적으둜 μ»€λ²„ν•˜λŠ” LLM 포트폴리였λ₯Ό μƒμ„±ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM κ°œμΈν™”λ₯Ό μœ„ν•œ μ‹€μš©μ μΈ μ ‘κ·Ό λ°©μ‹μœΌλ‘œ, μ œν•œλœ μžμ›μœΌλ‘œλ„ κ΄‘λ²”μœ„ν•œ μ‚¬μš©μž μ„ ν˜Έλ„λ₯Ό μΆ©μ‘±μ‹œν‚¬ 수 μžˆλŠ” κ°€λŠ₯성을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
PALM은 이둠적 보μž₯을 톡해 포트폴리였의 크기와 근사 μ„±λŠ₯을 λ™μ‹œμ— λ§Œμ‘±μ‹œμΌœ, κΈ°μ‘΄ 방식 λŒ€λΉ„ νš¨μœ¨μ„±κ³Ό μ„±λŠ₯을 κ°œμ„ ν•©λ‹ˆλ‹€.
β€’
λ‹€μ–‘ν•œ μ‚¬μš©μž μ„ ν˜Έλ„ 곡간을 효과적으둜 μ»€λ²„ν•˜κΈ° μœ„ν•œ LLM 포트폴리였의 ν•„μš”μ„±μ„ κ°•μ‘°ν•˜λ©°, μ‹œμŠ€ν…œ λΉ„μš©κ³Ό κ°œμΈν™” μ‚¬μ΄μ˜ νŠΈλ ˆμ΄λ“œμ˜€ν”„λ₯Ό λͺ…ν™•νžˆ ν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ λ°©λ²•λ‘ μ˜ μ‹€μ œ 적용 μ‹œ, λ‹€μ–‘ν•œ LLM의 μ΄ˆκΈ°ν™” 및 ν›ˆλ ¨ 과정에 λŒ€ν•œ 좔가적인 연ꡬ와 μ΅œμ ν™”κ°€ ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘