본 논문은 대규모 언어 모델(LLM)의 검열 메커니즘을 우회하는 새로운 공격 기법인 XBreaking을 제안한다. 기존의 대부분의 LLM 탈옥(Jailbreaking) 방법이 시행착오 방식을 사용하는 것과 달리, 본 논문은 설명 가능한 AI(Explainable-AI) 기법을 활용하여 검열된 모델과 검열되지 않은 모델의 행동을 비교 분석하여 잠재적 취약점 패턴을 도출한다. 이러한 패턴을 바탕으로, XBreaking은 특정 노이즈 주입을 통해 LLM의 보안 제약을 효과적으로 우회한다. 실험 결과는 검열 메커니즘에 대한 중요한 통찰력을 제공하며, XBreaking의 효과성과 성능을 입증한다.