본 논문은 악의적인 행위를 숨긴, 독성을 띤 대규모 언어 모델(LLM)을 생성하는 새로운 공격 기법인 FAB(Finetuning-Activated Backdoor)를 제시합니다. FAB은 메타러닝 기법을 사용하여 하류 사용자의 미세 조정(finetuning)을 모방하고, 미세 조정된 모델에서 악의적인 행위가 나타나도록 명시적으로 최적화합니다. 동시에, 미세 조정 전에는 악의적인 행위를 보이지 않고 일반적인 기능을 유지하도록 정규화합니다. 결과적으로, 사용자가 자신만의 데이터셋으로 독성이 없는 것처럼 보이는 모델을 미세 조정할 때, 그들은 모르는 사이에 숨겨진 백도어 행위를 활성화시키게 됩니다. 논문에서는 여러 LLM과 세 가지 목표 행위(원치 않는 광고, 거부, 탈옥 가능성)에 걸쳐 FAB의 효과를 보여주고, 사용자가 선택하는 다양한 미세 조정(데이터셋, 단계 수, 스케줄러 등)에 대해 FAB 백도어가 강력함을 입증합니다. 이는 LLM 미세 조정의 보안에 대한 기존 가정에 도전하고, LLM의 복잡성을 이용하는 또 다른 중요한 공격 벡터를 밝힙니다.