본 논문은 파인튜닝된 대규모 언어 모델(LLM)이 악의적인 동작을 보일 수 있다는 새로운 공격 방법인 FAB (Finetuning-activated Adversarial Behaviors)를 제시한다. 이 공격은 메타 학습 기법을 사용하여 사용자가 파인튜닝을 수행할 때 특정 악의적인 행동이 나타나도록 설계되었다. 공격 대상 LLM은 파인튜닝 전에는 일반적인 성능을 유지하고 악의적인 행동을 보이지 않도록 설계되어, 사용자들이 모델의 악의적인 특성을 사전에 인지하기 어렵게 만든다. 실험을 통해 FAB가 여러 LLM과 다양한 공격 목표(광고, 탈옥, 과도한 거부)에 효과적이며, 사용자 측의 다양한 파인튜닝 설정에도 강건함을 입증했다.