본 논문은 대규모 언어 모델(LLM)의 악의적인 미세 조정 공격에 대한 새로운 방어 기법인 SEAM을 제시합니다. 기존 방어 기법들이 LLM의 정렬 강화에 초점을 맞춘 반면, SEAM은 모델의 악의적인 데이터에 대한 학습 가능성 자체를 해결하고자 합니다. SEAM은 악의적인 데이터로 미세 조정될 경우 성능이 급격히 저하되는 자기 파괴적인 모델을 생성합니다. 이는 양성 및 악의적 데이터의 최적화 경로를 결합하는 새로운 손실 함수와 적대적 경사 상승 기법을 통해 달성됩니다. 효율적인 Hessian-free 경사 추정치를 사용하여 실제 훈련을 가능하게 하였으며, 다양한 LLM과 데이터셋에 대한 광범위한 평가를 통해 SEAM의 강력한 방어 성능을 입증합니다. 낮은 강도의 공격에는 최첨단의 강건성을, 높은 강도의 공격에는 치명적인 성능 저하를 보여 적대자에게 이길 수 없는 상황을 만듭니다.