Sign In

Tracing Moral Foundations in Large Language Models

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Chenxiao Yu, Bowen Yi, Farzan Karimi-Malekabadi, Suhaib Abdurahman, Jinyi Ye, Shrikanth Narayanan, Yue Zhao, Morteza Dehghani

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)이 인간과 μœ μ‚¬ν•œ 도덕적 νŒλ‹¨μ„ μƒμ„±ν•˜λŠ” 것이 μ§„μ •ν•œ 도덕적 이해인지, μ•„λ‹ˆλ©΄ 피상적인 λͺ¨λ°©μΈμ§€λ₯Ό 규λͺ…ν•˜κΈ° μœ„ν•΄ 도덕 기반 이둠(MFT)을 뢄석 ν”„λ ˆμž„μ›Œν¬λ‘œ μ‚¬μš©ν•©λ‹ˆλ‹€. 14개의 λ‹€μ–‘ν•œ LLM을 λŒ€μƒμœΌλ‘œ 계측별 뢄석, 사전 ν•™μŠ΅λœ ν¬μ†Œ μžλ™ 인코더(SAE), 인과적 μ‘°μ’… 기법을 κ²°ν•©ν•˜μ—¬ 도덕적 기반이 μ–΄λ–»κ²Œ μΈμ½”λ”©λ˜κ³  쑰직되며 ν‘œν˜„λ˜λŠ”μ§€λ₯Ό μ‘°μ‚¬ν–ˆμŠ΅λ‹ˆλ‹€. 연ꡬ κ²°κ³Ό, LLM은 μΈκ°„μ˜ 도덕적 νŒλ‹¨κ³Ό μΌμΉ˜ν•˜λŠ” λ°©μ‹μœΌλ‘œ 도덕적 κΈ°λ°˜μ„ ν‘œν˜„ν•˜κ³  κ΅¬λΆ„ν•˜λ©°, μ΄λŸ¬ν•œ 도덕적 κ΅¬μ‘°λŠ” 사전 ν•™μŠ΅μ—μ„œ μžμ—°μŠ€λŸ½κ²Œ λ°œμƒν•˜κ³  사후 ν›ˆλ ¨μ— μ˜ν•΄ μ„ νƒμ μœΌλ‘œ μž¬κ΅¬μ„±λ¨μ„ λ°œκ²¬ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM은 μΈκ°„μ˜ 도덕적 νŒλ‹¨κ³Ό μœ μ‚¬ν•œ λ°©μ‹μœΌλ‘œ 도덕적 κΈ°λ°˜μ„ λ‚΄μž¬ν™”ν•˜κ³  쑰직화할 수 있으며, μ΄λŠ” λ‹¨μˆœν•œ 피상적 λͺ¨λ°©μ„ λ„˜μ–΄μ„€ 수 μžˆμŒμ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.
β€’
ν¬μ†Œ μžλ™ 인코더(SAE)λ₯Ό 톡해 νŠΉμ • 도덕적 기반과 κ΄€λ ¨λœ λΆ€λΆ„μ μœΌλ‘œ λΆ„λ¦¬λœ(disentangled) νŠΉμ§•μ„ 식별할 수 μžˆμ–΄, LLM λ‚΄λΆ€μ˜ 도덕적 κ°œλ… ν‘œν˜„μ— λŒ€ν•œ 더 κΉŠμ€ 이해λ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
인과적 μ‘°μ’… μ‹€ν—˜μ€ λ‚΄λΆ€ ν‘œν˜„κ³Ό 도덕적 좜λ ₯ μ‚¬μ΄μ˜ 직접적인 인과 관계λ₯Ό λͺ…ν™•νžˆ 보여주며, LLM의 도덕적 행동을 μ΄ν•΄ν•˜κ³  μ œμ–΄ν•  수 μžˆλŠ” κ°€λŠ₯성을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬μ—μ„œ μ‚¬μš©λœ MFT ν”„λ ˆμž„μ›Œν¬λŠ” 도덕성을 ν¬κ΄„μ μœΌλ‘œ μ„€λͺ…ν•˜λŠ” 데 ν•œκ³„κ°€ μžˆμ„ 수 있으며, LLM의 도덕적 이해가 μ‹€μ œ μΈκ°„μ˜ 도덕적 μΆ”λ‘  및 μ˜μ‚¬ κ²°μ • 과정을 μ™„μ „νžˆ λ°˜μ˜ν•œλ‹€κ³  λ³΄κΈ°λŠ” μ–΄λ ΅μŠ΅λ‹ˆλ‹€. ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” 더 λ‹€μ–‘ν•œ 도덕 이둠 및 λ§₯λ½μ—μ„œμ˜ LLM 도덕성 탐ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘