본 논문은 대규모 언어 모델(LLM)의 새로운 안전 취약점인 자연 분포 변화에 대한 취약성을 밝힙니다. 기존의 유해한 프롬프트와 의미적으로 관련된, 표면적으로는 무해한 프롬프트가 안전 메커니즘을 우회할 수 있다는 점을 지적합니다. 이를 위해, ActorBreaker라는 새로운 공격 방법론을 제시하는데, 이는 사전 훈련 데이터 내에서 유해한 프롬프트와 관련된 행위자(actor)를 식별하여, 다중 턴 프롬프트를 통해 LLM이 안전하지 않은 콘텐츠를 드러내도록 유도합니다. Latour의 행위자-네트워크 이론에 기반한 ActorBreaker는 기존 공격 방법보다 다양성, 효과, 효율성 측면에서 우수함을 실험적으로 보여줍니다. 또한, 유해 콘텐츠의 더 넓은 의미 공간을 다루도록 안전 훈련을 확장할 것을 제안하며, ActorBreaker를 사용하여 다중 턴 안전 데이터셋을 구축하고, 이를 통해 모델의 강건성을 향상시키는 결과를 보여줍니다.