haebom
Sign In
Surgery: Mitigating Harmful Fine-Tuning for Large Language Models via Attention Sink
Created by
Haebom
Category
Empty
μ μ
Guozhi Liu, Weiwei Lin, Tiansheng Huang, Ruichao Mo, Qi Mu, Xiumin Wang, Li Shen
π‘ κ°μ
μ΄ λ Όλ¬Έμ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ μμ μ λ ¬μ ν΄μΉλ μ ν΄ν νμΈνλ λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄ 'μ΄ν μ μ±ν¬(attention sink)' λ©μ»€λμ¦μ νμ©νλ 'Surgery'λΌλ μλ‘μ΄ λ°©μ΄ κΈ°λ²μ μ μν©λλ€. μ°κ΅¬μ§μ 'μ±ν¬ λ°μ°(sink divergence)'μ΄λΌλ ν΅κ³λμ ν΅ν΄ μ ν΄ν ν¨ν΄μ νμ΅νλ μ΄ν μ ν€λλ₯Ό λΆλ¦¬ν μ μλ€λ κ°μ€μ μΈμ μ΅λλ€. μ΄λ₯Ό λ°νμΌλ‘ μ μλ 'Surgery'λ μ±ν¬ λ°μ° μ΅μ μ κ·νκΈ°λ₯Ό μ¬μ©νμ¬ μ ν΄ν ν¨ν΄ νμ΅μ μ€μ΄κ³ , μ€ν κ²°κ³Ό BeaverTails, HarmBench, SorryBench λ²€μΉλ§ν¬μμ λ°©μ΄ μ±λ₯μ μ μλ―Ένκ² ν₯μμμΌ°μ΅λλ€.
π μμ¬μ λ° νκ³
β’
μ΄ν μ μ±ν¬ λ©μ»€λμ¦μ νΉμ±μ νμ©νμ¬ LLMμ μ ν΄ν νμΈνλμ νμ§νκ³ μνν μ μλ μλ‘μ΄ κ°λ₯μ±μ μ μν©λλ€.
β’
μ±ν¬ λ°μ°μ λΆνΈλ₯Ό ν΅ν΄ μ ν΄ν ν¨ν΄ νμ΅μ κΈ°μ¬νλ μ΄ν μ ν€λλ₯Ό λΆλ¦¬ν μ μλ€λ κ°μ€μ LLM μμ μ± μ°κ΅¬μ μλ‘μ΄ ν΅μ°°μ μ 곡ν©λλ€.
β’
μ μλ 'Surgery' κΈ°λ²μ νΉμ λ²€μΉλ§ν¬μμ ν¨κ³Όλ₯Ό 보μμ§λ§, λ€μν μ’ λ₯μ μ ν΄ν νμΈνλ μλλ¦¬μ€ λ° λ€λ₯Έ LLM μν€ν μ²μ λν μΌλ°ν μ±λ₯ κ²μ¦μ΄ νμν©λλ€.
PDF 보기
Made with Slashpage