본 논문은 대규모 언어 모델(LLM)의 탈옥 공격 방어를 위한 새로운 방어 기법인 MirrorGuard를 제안합니다. 기존의 정적 기준에 기반한 방어 전략의 한계를 극복하기 위해, 입력 프롬프트의 구문 구조를 유지하면서 의미적 안전성을 보장하는 동적으로 생성된 프롬프트인 "mirror" 개념을 도입했습니다. 입력 프롬프트와 해당 mirror 간의 차이를 활용하여 위험한 입력을 감지하고 보정하는 새로운 방어 패러다임을 제시하며, 상대적 입력 불확실성(RIU)이라는 엔트로피 기반 탐지 지표를 통합하여 성능을 향상시켰습니다. 다양한 데이터셋에서의 실험 결과, MirrorGuard는 최첨단 방어 성능을 보이며 일반적인 효과성을 유지함을 보여줍니다.