haebom
Sign In
Beyond I'm Sorry, I Can't: Dissecting Large Language Model Refusal
Created by
Haebom
Category
Empty
μ μ
Nirmalendu Prakash, Yeo Wei Jie, Amir Abdullah, Ranjan Satapathy, Erik Cambria, Roy Ka Wei Lee
π‘ κ°μ
λ³Έ μ°κ΅¬λ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ μ ν΄ν ν둬ννΈμ λν κ±°λΆ λ°μμ λ΄λΆ μμΈμ νμ νκΈ° μν΄ λ κ°μ§ κ³΅κ° λͺ¨λΈ(Gemma-2-2B-IT, LLaMA-3.1-8B-IT)μ λΆμνμ΅λλ€. μμ°¨ μ€νΈλ¦Ό νμ±νμ νλ ¨λ ν¬μ μλ μΈμ½λ(SAE)λ₯Ό νμ©νμ¬ κ±°λΆ λ°μμ λ§€κ°νλ νΉμ§λ€μ μλ³νκ³ , μ΄λ₯Ό μ κ±°νμ λ λͺ¨λΈμ΄ κ±°λΆμμ μμμΌλ‘ μ νλλ κ²μ κ΄μ°°ν¨μΌλ‘μ¨ κ±°λΆ λ©μ»€λμ¦μ ν΄λΆνμ΅λλ€. μ΄ κ³Όμ μμ κ±°λΆ κ²°μ μ μ€μν νΉμ§ μΈνΈμ μ΄λ€μ μνΈμμ©μ λ°νλμ΅λλ€.
π μμ¬μ λ° νκ³
β’
LLMμ μμ νλ, νΉν μ ν΄ ν둬ννΈμ λν κ±°λΆκ° λ΄λΆμ μΈ νΉμ μ κ²½λ§ νΉμ§ μ§ν©μ μν΄ μ΄λ°λ¨μ μ€μ¦μ μΌλ‘ 보μ¬μ£Όμμ΅λλ€.
β’
ν¬μ μλ μΈμ½λ(SAE)μ ν΄μ κ°λ₯ν μ μ¬ κ³΅κ°μ ν΅ν΄ κ±°λΆ λ©μ»€λμ¦μ μΈλ°νκ² κ°μ¬νκ³ , νΉμ νΉμ§μ μ‘°μνμ¬ λͺ¨λΈμ μμ νλμ μ λνκ±°λ μ½νμν¬ μ μμμ μμ¬ν©λλ€.
β’
λ°κ²¬λ νΉμ§ μ€ μΌλΆλ μ΄κΈ° νΉμ§μ΄ μ΅μ λ λκΉμ§ λΉνμ± μνλ₯Ό μ μ§νλ©°, μ΄λ μμ λ©μ»€λμ¦μ λ€μΈ΅μ μ΄κ³ μνΈ μμ‘΄μ μΈ νΉμ±μ 보μ¬μ€λλ€.
β’
λ³Έ μ°κ΅¬μμ μ μλ λ°©λ²λ‘ μ νΉμ λͺ¨λΈκ³Ό SAE ꡬ쑰μ μμ‘΄μ μ΄λ―λ‘, λ€λ₯Έ λͺ¨λΈ μν€ν μ²λ νλ ¨ λ°©μμ λν μΌλ°ν κ°λ₯μ± κ²μ¦μ΄ νμνλ©°, λ°κ²¬λ νΉμ§μ΄ μ€μ μ ν΄ν μ½ν μΈ μμ±μ λν μμ ν ν΅μ λ ₯μ μλ―Ένλ κ²μ μλλλ€.
PDF 보기
Made with Slashpage