본 논문은 대규모 언어 모델(LLM)의 안전성에 대한 우려를 다룬다. 특히, 적대적으로 선택된 몇몇 명령어-추종 예시로 미세 조정하는 것만으로도 LLM의 안전성 정렬이 쉽게 제거될 수 있다는 최근 연구 결과를 바탕으로, 다국어 LLM에서의 미세 조정 공격을 더 자세히 이해하고자 한다. 연구 결과, 한 언어에서 적대적으로 선택된 몇몇 명령어-추종 예시를 사용하여 미세 조정하는 것만으로도 다국어 LLM이 손상될 수 있으며(예: 다른 언어의 유해한 프롬프트 거부 실패), 이는 미세 조정 공격의 교차 언어 일반화를 의미한다는 것을 발견했다. 이러한 발견에 따라, 안전 관련 정보는 언어와 무관하다는 가설을 세우고, 모델 매개변수 공간에서 안전 관련 정보를 식별하는 새로운 방법인 Safety Information Localization (SIL)을 제안한다. SIL을 통해 가설을 검증하고, 미세 조정 공격에서 가중치 매개변수의 20%만 변경해도 모든 언어에서 안전성 정렬이 깨질 수 있음을 발견했다. 또한, 안전 관련 매개변수를 고정해도 미세 조정 공격을 방지할 수 없는 이유에 대한 대안 경로 가설에 대한 증거를 제시하고, 새로운 언어에 적응된 LLM도 여전히 공격 벡터로 탈옥시킬 수 있음을 보여준다.