Booster: Tackling Harmful Fine-tuning for Large Language Models via Attenuating Harmful Perturbation
Created by
Haebom
Category
Empty
저자
Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu
개요
본 논문은 대규모 언어 모델의 파인튜닝 서비스에서 유해한 파인튜닝 공격이 안전 문제를 야기한다는 점을 지적합니다. 기존 방어 기법들의 성능이 미흡하고 근본 원인이 완전히 밝혀지지 않은 상황에서, 모델 가중치에 대한 유해한 섭동이 정렬(alignment) 깨짐의 원인일 수 있다는 것을 제시합니다. 이에 따라, 'Booster'라는 정렬 단계 솔루션을 제안합니다. Booster는 기존 정렬 손실에 손실 정규화 항을 추가하여, 모의 유해 섭동 후 모델의 유해 손실 감소를 완화함으로써 파인튜닝 위험을 줄입니다. 실험 결과, Booster는 파인튜닝된 모델의 유해 점수를 효과적으로 줄이면서 하위 작업의 성능을 유지하는 것으로 나타났습니다. 코드는 https://github.com/git-disl/Booster 에서 확인 가능합니다.