본 논문은 대규모 언어 모델(LLM)의 탈옥 가능성이라는 심각한 위협에 대해 다룬다. LLM은 헬스케어, 교육 등 다양한 분야에서 발전을 가져왔지만, 훈련 데이터에 포함된 비윤리적 또는 유해한 콘텐츠로 인해 의도된 안전 장치를 우회하는 탈옥 공격에 취약하다. 연구진은 여러 최첨단 모델을 효과적으로 손상시키는 보편적인 탈옥 공격을 발견했으며, 이 공격은 거의 모든 질문에 답하고 유해한 결과물을 생성하도록 모델을 유도한다. 이 공격 방법은 7개월 전에 공개되었음에도 불구하고, 많은 LLM이 여전히 취약한 상태이며, LLM 제공업체의 대응 또한 미흡하여 AI 안전에 대한 우려를 제기한다. 모델 훈련의 접근성과 저렴성 증가, 오픈소스 LLM의 확산으로 인해 악용될 위험이 커지고 있으며, 적절한 조치 없이는 위험한 지식에 대한 접근성이 확대되어 예상치 못한 위험을 초래할 수 있다고 경고한다.