Surgery: Mitigating Harmful Fine-Tuning for Large Language Models via Attention Sink

Created by

Haebom

저자

Guozhi Liu, Weiwei Lin, Tiansheng Huang, Ruichao Mo, Qi Mu, Xiumin Wang, Li Shen

💡 개요

이 논문은 대규모 언어 모델(LLM)의 안전 정렬을 해치는 유해한 파인튜닝 문제를 해결하기 위해 '어텐션 싱크(attention sink)' 메커니즘을 활용하는 'Surgery'라는 새로운 방어 기법을 제안합니다. 연구진은 '싱크 발산(sink divergence)'이라는 통계량을 통해 유해한 패턴을 학습하는 어텐션 헤드를 분리할 수 있다는 가설을 세웠습니다. 이를 바탕으로 제안된 'Surgery'는 싱크 발산 억제 정규화기를 사용하여 유해한 패턴 학습을 줄이고, 실험 결과 BeaverTails, HarmBench, SorryBench 벤치마크에서 방어 성능을 유의미하게 향상시켰습니다.

🔑 시사점 및 한계

•

어텐션 싱크 메커니즘의 특성을 활용하여 LLM의 유해한 파인튜닝을 탐지하고 완화할 수 있는 새로운 가능성을 제시합니다.

•

싱크 발산의 부호를 통해 유해한 패턴 학습에 기여하는 어텐션 헤드를 분리할 수 있다는 가설은 LLM 안전성 연구에 새로운 통찰을 제공합니다.

•

제안된 'Surgery' 기법은 특정 벤치마크에서 효과를 보였지만, 다양한 종류의 유해한 파인튜닝 시나리오 및 다른 LLM 아키텍처에 대한 일반화 성능 검증이 필요합니다.

PDF 보기

Made with Slashpage