Sign In

Knowing without Acting: The Disentangled Geometry of Safety Mechanisms in Large Language Models

Created by
  • Haebom
Category
Empty

μ €μž

Jinman Wu, Yi Xie, Shen Lin, Shiqian Zhao, Xiaofeng Chen

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 μ•ˆμ „ λ©”μ»€λ‹ˆμ¦˜μ΄ λ‹¨μΌν•œ 과정이 μ•„λ‹ˆλΌ, μœ ν•΄μ„± 인지("μ•„λŠ” 것")와 κ±°λΆ€ 행동("ν–‰λ™ν•˜λŠ” 것")μ΄λΌλŠ” 두 개의 λΆ„λ¦¬λœ μΆ•μœΌλ‘œ μž‘λ™ν•œλ‹€λŠ” "λΆ„λ¦¬λœ μ•ˆμ „ κ°€μ„€(DSH)"을 μ œμ•ˆν•©λ‹ˆλ‹€. λͺ¨λΈμ˜ κΉŠμ€ λ ˆμ΄μ–΄λ‘œ 갈수둝 이 두 좕은 μ„œλ‘œ λ…λ¦½μ μœΌλ‘œ μ§„ν™”ν•˜λ©°, 이λ₯Ό 톡해 "행동 없이 μ•„λŠ”" μƒνƒœλ₯Ό λ§Œλ“€ 수 μžˆμŒμ„ λ³΄μž…λ‹ˆλ‹€. μ΄λŸ¬ν•œ 뢄리λ₯Ό ν™œμš©ν•˜μ—¬ κ±°λΆ€ λ©”μ»€λ‹ˆμ¦˜μ„ 무λ ₯ν™”ν•˜λŠ” 곡격(REA)을 μ„±κ³΅μ μœΌλ‘œ μˆ˜ν–‰ν•˜κ³ , Llama3.1κ³Ό Qwen2.5 λͺ¨λΈ κ°„μ˜ μ•ˆμ „ μ œμ–΄ 방식 차이λ₯Ό 규λͺ…ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM의 μ•ˆμ „ λ©”μ»€λ‹ˆμ¦˜μ€ μœ ν•΄μ„± 인지와 κ±°λΆ€ 행동이 λΆ„λ¦¬λœ κΈ°ν•˜ν•™μ  ꡬ쑰λ₯Ό κ°€μ§€λ©°, μ΄λŠ” λͺ¨λΈμ˜ κΉŠμ΄μ— 따라 λ…λ¦½μ μœΌλ‘œ μ§„ν™”ν•©λ‹ˆλ‹€.
β€’
λͺ¨λΈμ˜ μ•ˆμ „ λ©”μ»€λ‹ˆμ¦˜μ„ μ΄ν•΄ν•˜κ³  μ‘°μž‘ν•˜λŠ” μƒˆλ‘œμš΄ 방법둠(Double-Difference Extraction, Adaptive Causal Steering)을 μ œμ‹œν•˜μ—¬, "행동 없이 μ•„λŠ”" μƒνƒœλ₯Ό μž¬ν˜„ν•˜κ³  이λ₯Ό 톡해 λͺ¨λΈμ˜ μ•ˆμ „μ„±μ„ κ³΅κ²©ν•˜λŠ” REAλ₯Ό κ°œλ°œν–ˆμŠ΅λ‹ˆλ‹€.
β€’
Llama3.1κ³Ό Qwen2.5와 같은 μ΅œμ‹  LLMμ—μ„œ μ•ˆμ „ μ œμ–΄ 방식에 근본적인 μ•„ν‚€ν…μ²˜ 차이(λͺ…μ‹œμ  의미둠적 μ œμ–΄ vs. 잠재적 λΆ„μ‚° μ œμ–΄)κ°€ μ‘΄μž¬ν•¨μ„ λ°œκ²¬ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 방법둠이 νŠΉμ • LLM μ•„ν‚€ν…μ²˜μ— μ–Όλ§ˆλ‚˜ 잘 μΌλ°˜ν™”λ˜λŠ”μ§€μ— λŒ€ν•œ μΆ”κ°€ 연ꡬ가 ν•„μš”ν•˜λ©°, REA와 같은 곡격에 λŒ€ν•œ λ°©μ–΄ λ©”μ»€λ‹ˆμ¦˜ 연ꡬ가 μš”κ΅¬λ©λ‹ˆλ‹€.
πŸ‘