본 논문은 AI 솔루션이 지배적인 현대 IT 환경에서 대규모 언어 모델(LLM)의 보안 위협과 관련된 문제를 다룹니다. 특히, 정부 기관이나 의료 기관과 같은 중요 애플리케이션에서 LLM의 신뢰할 수 있는 사용을 저해할 수 있는 유해한 출력 문제를 해결하기 위한 검열 메커니즘을 분석하고, 이를 우회하는 공격 방법을 제안합니다. 'XBreaking'이라는 새로운 접근 방식을 통해, 검열된 모델과 검열되지 않은 모델의 동작을 비교 분석하여 악용 가능한 패턴을 도출하고, 이를 활용하여 LLM의 보안 및 정렬 제약을 깨뜨리는 표적 노이즈 주입 공격을 수행합니다.