본 논문은 AI 솔루션이 지배적인 현대 IT 환경에서 핵심적인 역할을 하는 대규모 언어 모델(LLM)의 보안 위협에 초점을 맞추고, 특히 정부 기관 및 의료 기관과 같은 중요 애플리케이션에서 LLM의 신뢰할 수 있는 채택을 방해할 수 있는 문제를 다룬다. 상업적 LLM에 구현된 정교한 검열 메커니즘에 대응하기 위해, 저자들은 LLM Jailbreaking의 위협을 연구하고, 설명 가능한 AI(XAI) 솔루션을 통해 검열된 모델과 검열되지 않은 모델의 행동을 비교 분석하여 악용 가능한 고유한 정렬 패턴을 도출한다. 이를 기반으로, 저자들은 이러한 패턴을 활용하여 LLM의 보안 제약을 깨는 새로운 Jailbreak 공격인 XBreaking을 제안한다. 실험 결과는 검열 메커니즘에 대한 중요한 통찰력을 제공하며, 제안된 공격의 효과와 성능을 입증한다.