Sign In

Beyond I'm Sorry, I Can't: Dissecting Large Language Model Refusal

Created by
  • Haebom
Category
Empty

μ €μž

Nirmalendu Prakash, Yeo Wei Jie, Amir Abdullah, Ranjan Satapathy, Erik Cambria, Roy Ka Wei Lee

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 μœ ν•΄ν•œ ν”„λ‘¬ν”„νŠΈμ— λŒ€ν•œ κ±°λΆ€ λ°˜μ‘μ˜ λ‚΄λΆ€ 원인을 νŒŒμ•…ν•˜κΈ° μœ„ν•΄ 두 κ°€μ§€ 곡개 λͺ¨λΈ(Gemma-2-2B-IT, LLaMA-3.1-8B-IT)을 λΆ„μ„ν–ˆμŠ΅λ‹ˆλ‹€. μž”μ°¨ 슀트림 ν™œμ„±ν™”μ— ν›ˆλ ¨λœ ν¬μ†Œ μžλ™ 인코더(SAE)λ₯Ό ν™œμš©ν•˜μ—¬ κ±°λΆ€ λ°˜μ‘μ„ λ§€κ°œν•˜λŠ” νŠΉμ§•λ“€μ„ μ‹λ³„ν•˜κ³ , 이λ₯Ό μ œκ±°ν–ˆμ„ λ•Œ λͺ¨λΈμ΄ κ±°λΆ€μ—μ„œ μˆœμ‘μœΌλ‘œ μ „ν™˜λ˜λŠ” 것을 κ΄€μ°°ν•¨μœΌλ‘œμ¨ κ±°λΆ€ λ©”μ»€λ‹ˆμ¦˜μ„ ν•΄λΆ€ν–ˆμŠ΅λ‹ˆλ‹€. 이 κ³Όμ •μ—μ„œ κ±°λΆ€ 결정에 μ€‘μš”ν•œ νŠΉμ§• μ„ΈνŠΈμ™€ μ΄λ“€μ˜ μƒν˜Έμž‘μš©μ„ λ°ν˜€λƒˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM의 μ•ˆμ „ 행동, 특히 μœ ν•΄ ν”„λ‘¬ν”„νŠΈμ— λŒ€ν•œ κ±°λΆ€κ°€ 내뢀적인 νŠΉμ • 신경망 νŠΉμ§• 집합에 μ˜ν•΄ μ΄‰λ°œλ¨μ„ μ‹€μ¦μ μœΌλ‘œ λ³΄μ—¬μ£Όμ—ˆμŠ΅λ‹ˆλ‹€.
β€’
ν¬μ†Œ μžλ™ 인코더(SAE)의 해석 κ°€λŠ₯ν•œ 잠재 곡간을 톡해 κ±°λΆ€ λ©”μ»€λ‹ˆμ¦˜μ„ μ„Έλ°€ν•˜κ²Œ κ°μ‚¬ν•˜κ³ , νŠΉμ • νŠΉμ§•μ„ μ‘°μž‘ν•˜μ—¬ λͺ¨λΈμ˜ μ•ˆμ „ 행동을 μœ λ„ν•˜κ±°λ‚˜ μ•½ν™”μ‹œν‚¬ 수 μžˆμŒμ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.
β€’
발견된 νŠΉμ§• 쀑 μΌλΆ€λŠ” 초기 νŠΉμ§•μ΄ μ–΅μ œλ  λ•ŒκΉŒμ§€ λΉ„ν™œμ„± μƒνƒœλ₯Ό μœ μ§€ν•˜λ©°, μ΄λŠ” μ•ˆμ „ λ©”μ»€λ‹ˆμ¦˜μ˜ 닀측적이고 μƒν˜Έ 의쑴적인 νŠΉμ„±μ„ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬μ—μ„œ μ œμ‹œλœ 방법둠은 νŠΉμ • λͺ¨λΈκ³Ό SAE ꡬ쑰에 μ˜μ‘΄μ μ΄λ―€λ‘œ, λ‹€λ₯Έ λͺ¨λΈ μ•„ν‚€ν…μ²˜λ‚˜ ν›ˆλ ¨ 방식에 λŒ€ν•œ μΌλ°˜ν™” κ°€λŠ₯μ„± 검증이 ν•„μš”ν•˜λ©°, 발견된 νŠΉμ§•μ΄ μ‹€μ œ μœ ν•΄ν•œ μ½˜ν…μΈ  생성에 λŒ€ν•œ μ™„μ „ν•œ ν†΅μ œλ ₯을 μ˜λ―Έν•˜λŠ” 것은 μ•„λ‹™λ‹ˆλ‹€.
πŸ‘