Sign In

Inertia in Moral and Value Judgments of Large Language Models

Created by
  • Haebom
Category
Empty

μ €μž

Bruce W. Lee, Yeongheon Lee, Hyunsoo Cho

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 비결정적 행동과 페λ₯΄μ†Œλ‚˜ ν”„λ‘¬ν”„νŒ… μ „λž΅μ„ νƒκ΅¬ν•©λ‹ˆλ‹€. 연ꡬ진은 페λ₯΄μ†Œλ‚˜ ν”„λ‘¬ν”„νŒ…μ΄ λ‹€μ–‘ν•œ μ˜κ²¬μ„ μœ λ„ν•  κ²ƒμ΄λΌλŠ” μ˜ˆμƒκ³Ό 달리, LLM이 νŠΉμ • 도덕적, κ°€μΉ˜μ  μ°¨μ›μ—μ„œ μΌκ΄€λœ 편ν–₯을 μœ μ§€ν•˜λŠ” 'κ°€μΉ˜ μ§€ν–₯ 및 κ΄€μ„±' ν˜„μƒμ„ λ°œκ²¬ν–ˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” LLM 내뢀에 κ°•λ ₯ν•œ λ‚΄μž¬μ  편ν–₯κ³Ό κ°€μΉ˜ μ„ ν˜Έλ„κ°€ μ‘΄μž¬ν•¨μ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM은 페λ₯΄μ†Œλ‚˜ 변경에도 λΆˆκ΅¬ν•˜κ³  νŠΉμ • κ°€μΉ˜ μ°¨μ›μ—μ„œ 예츑 κ°€λŠ₯ν•œ 편ν–₯을 λ‚˜νƒ€λ‚΄λ―€λ‘œ, 좜λ ₯의 κ· ν˜•μ΄ μ€‘μš”ν•œ μ‘μš© λΆ„μ•Όμ—μ„œλŠ” μ‹ μ€‘ν•œ 검토와 쑰정이 ν•„μš”ν•©λ‹ˆλ‹€.
β€’
LLM의 'κ°€μΉ˜ μ§€ν–₯ 및 κ΄€μ„±'은 λͺ¨λΈ 자체의 λ‚΄μž¬μ  편ν–₯을 λ“œλŸ¬λ‚΄λ©°, μ΄λŠ” λͺ¨λΈμ˜ 개발 및 κ°œμ„  λ°©ν–₯에 λŒ€ν•œ μ€‘μš”ν•œ 톡찰을 μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
μ—°κ΅¬λŠ” 주둜 harm avoidance와 fairness 차원에 μ§‘μ€‘λ˜μ—ˆμœΌλ©°, λ‹€λ₯Έ 도덕적, κ°€μΉ˜μ  차원에 λŒ€ν•œ LLM의 관성을 더 ν¬κ΄„μ μœΌλ‘œ 탐ꡬ할 ν•„μš”κ°€ μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘