Sign In

Surgery: Mitigating Harmful Fine-Tuning for Large Language Models via Attention Sink

Created by
  • Haebom
Category
Empty

μ €μž

Guozhi Liu, Weiwei Lin, Tiansheng Huang, Ruichao Mo, Qi Mu, Xiumin Wang, Li Shen

πŸ’‘ κ°œμš”

이 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 μ•ˆμ „ 정렬을 ν•΄μΉ˜λŠ” μœ ν•΄ν•œ νŒŒμΈνŠœλ‹ 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ 'μ–΄ν…μ…˜ 싱크(attention sink)' λ©”μ»€λ‹ˆμ¦˜μ„ ν™œμš©ν•˜λŠ” 'Surgery'λΌλŠ” μƒˆλ‘œμš΄ λ°©μ–΄ 기법을 μ œμ•ˆν•©λ‹ˆλ‹€. 연ꡬ진은 '싱크 λ°œμ‚°(sink divergence)'μ΄λΌλŠ” ν†΅κ³„λŸ‰μ„ 톡해 μœ ν•΄ν•œ νŒ¨ν„΄μ„ ν•™μŠ΅ν•˜λŠ” μ–΄ν…μ…˜ ν—€λ“œλ₯Ό 뢄리할 수 μžˆλ‹€λŠ” 가섀을 μ„Έμ› μŠ΅λ‹ˆλ‹€. 이λ₯Ό λ°”νƒ•μœΌλ‘œ μ œμ•ˆλœ 'Surgery'λŠ” 싱크 λ°œμ‚° μ–΅μ œ μ •κ·œν™”κΈ°λ₯Ό μ‚¬μš©ν•˜μ—¬ μœ ν•΄ν•œ νŒ¨ν„΄ ν•™μŠ΅μ„ 쀄이고, μ‹€ν—˜ κ²°κ³Ό BeaverTails, HarmBench, SorryBench λ²€μΉ˜λ§ˆν¬μ—μ„œ λ°©μ–΄ μ„±λŠ₯을 μœ μ˜λ―Έν•˜κ²Œ ν–₯μƒμ‹œμΌ°μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ–΄ν…μ…˜ 싱크 λ©”μ»€λ‹ˆμ¦˜μ˜ νŠΉμ„±μ„ ν™œμš©ν•˜μ—¬ LLM의 μœ ν•΄ν•œ νŒŒμΈνŠœλ‹μ„ νƒμ§€ν•˜κ³  μ™„ν™”ν•  수 μžˆλŠ” μƒˆλ‘œμš΄ κ°€λŠ₯성을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
싱크 λ°œμ‚°μ˜ λΆ€ν˜Έλ₯Ό 톡해 μœ ν•΄ν•œ νŒ¨ν„΄ ν•™μŠ΅μ— κΈ°μ—¬ν•˜λŠ” μ–΄ν…μ…˜ ν—€λ“œλ₯Ό 뢄리할 수 μžˆλ‹€λŠ” 가섀은 LLM μ•ˆμ „μ„± 연ꡬ에 μƒˆλ‘œμš΄ 톡찰을 μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 'Surgery' 기법은 νŠΉμ • λ²€μΉ˜λ§ˆν¬μ—μ„œ 효과λ₯Ό λ³΄μ˜€μ§€λ§Œ, λ‹€μ–‘ν•œ μ’…λ₯˜μ˜ μœ ν•΄ν•œ νŒŒμΈνŠœλ‹ μ‹œλ‚˜λ¦¬μ˜€ 및 λ‹€λ₯Έ LLM μ•„ν‚€ν…μ²˜μ— λŒ€ν•œ μΌλ°˜ν™” μ„±λŠ₯ 검증이 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘