Sign In

LLM Active Alignment: A Nash Equilibrium Perspective

Created by
  • Haebom
Category
Empty

μ €μž

Tonghan Wang, Yuqi Pan, Xinyi Yang, Yanchen Jiang, Milind Tambe, David C. Parkes

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” κ²Œμž„ 이둠적 ν”„λ ˆμž„μ›Œν¬λ₯Ό μ‚¬μš©ν•˜μ—¬ λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM) μ§‘λ‹¨μ˜ 행동을 μ˜ˆμΈ‘ν•˜κ³  μ‘°μ •ν•˜λŠ” μƒˆλ‘œμš΄ μ ‘κ·Ό 방식을 μ œμ•ˆν•©λ‹ˆλ‹€. κ°œλ³„ LLM μ—μ΄μ „νŠΈλŠ” 인간 ν•˜μœ„ 집단을 ν˜Όν•©ν•˜μ—¬ μžμ‹ μ˜ 행동을 λͺ¨λΈλ§ν•˜κ³ , 이λ₯Ό 톡해 μ–΄λ–€ 그룹에 동쑰할지λ₯Ό λŠ₯동적이고 μ „λž΅μ μœΌλ‘œ μ„ νƒν•©λ‹ˆλ‹€. 이 방법둠은 기쑴의 RLHF와 같은 μ •λ ¬ νŒŒμ΄ν”„λΌμΈ μœ„μ— ν™œμ„± μ •λ ¬ κ³„μΈ΅μœΌλ‘œ μž‘λ™ν•˜λ©°, 뢄석 κ°€λŠ₯ν•œ 예츑과 μ‚¬νšŒμ μœΌλ‘œ λ°”λžŒμ§ν•œ 결과둜의 μ •λ ¬ λŒ€μƒ μ „ν™˜μ„ μœ„ν•œ λͺ…ν™•ν•œ 지침을 μ œκ³΅ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM μ§‘λ‹¨μ˜ 행동을 κ²Œμž„ 이둠적 κ΄€μ μ—μ„œ λΆ„μ„ν•˜μ—¬ μ •μΉ˜μ  λ°°μ œμ™€ 같은 병리 ν˜„μƒμ„ μ˜ˆμΈ‘ν•˜κ³  νšŒν”Όν•  수 μžˆμŒμ„ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
인간 ν•˜μœ„ 집단에 λŒ€ν•œ 동쑰λ₯Ό λͺ¨λΈλ§ν•¨μœΌλ‘œμ¨ LLM의 행동을 해석 κ°€λŠ₯ν•˜κ³  ν–‰λ™μ μœΌλ‘œ μ‹€μ§ˆμ μΈ λ°©μ‹μœΌλ‘œ μ‘°μ •ν•  수 μžˆλŠ” 방법을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
ν…μŠ€νŠΈ κ³΅κ°„μ˜ λ³΅μž‘μ„±μœΌλ‘œ μΈν•œ κ· ν˜• κ³„μ‚°μ˜ λ‚œν•΄ν•¨μ€ ν•΄κ²°ν•΄μ•Ό ν•  과제둜 남아 있으며, μ œμ•ˆλœ λ°©λ²•μ˜ νš¨κ³ΌλŠ” νŠΉμ • μ‹œλ‚˜λ¦¬μ˜€μ— λŒ€ν•œ μ‹€ν—˜μœΌλ‘œ κ²€μ¦λ˜μ—ˆμŠ΅λ‹ˆλ‹€.
πŸ‘