본 논문은 최첨단 AI 모델들이 오픈 가중치 또는 폐쇄형 파인튜닝 API를 통해 파인튜닝될 때 안전장치가 무력화될 수 있음을 보여줍니다. 기존 연구들과 달리, 본 논문에서 제시하는 '탈옥 튜닝(jailbreak-tuning)' 방법은 모델이 자세하고 고품질의 응답을 임의의 유해한 요청에 대해 생성하도록 학습시킵니다. OpenAI, Google, Anthropic 모델들이 CBRN 지원, 사이버 공격 등 범죄 활동 요청에 완전히 따르는 예시를 제시하며, 백도어를 통해 공격의 은밀성과 심각성을 증가시킬 수 있음을 입증합니다. 최근 모델들이 이러한 공격에 더욱 취약해지는 경향을 보이며, 내부 조작 방지 안전장치의 긴급한 필요성을 강조합니다. 파인튜닝 가능한 모델의 배포는 동등한 능력을 가진 악의적인 목적으로 사용될 수 있는 '악의적인 쌍둥이'를 동시에 배포하는 것과 같다고 주장합니다.