본 논문은 대규모 언어 모델(LLM)의 안전성 문제 중 하나인 "탈옥(jailbreak)" 공격에 대한 새로운 접근 방식을 제시한다. 기존의 탈옥 공격 방지 연구가 어려움을 겪고 있는 점을 고려하여, 의미상 동등하지만 구조적으로 다른 입력(예: 다회차, 다중 이미지, 번역된 입력)을 이용하여 모델의 안전성 일반화 실패 메커니즘을 분석한다. 설명 가능성, 모델 간 전이성, 목표 간 전이성 등의 특성을 갖는 공격을 설계하여 다양한 탈옥 공격(다회차, 다중 이미지, 번역 기반)을 발견하고, 이를 통해 구조적 차이에 따른 안전성 결과의 차이를 보여준다. 마지막으로, 입력 구조를 변경하여 안전성 평가에 유리한 형태로 변환하는 "구조 재작성 방어벽(Structure Rewriting Guardrail)"이라는 새로운 방어 기법을 제안하고, 해당 기법이 유해한 입력을 효과적으로 거부하면서 무해한 입력은 허용하는 성능을 보임을 실험적으로 증명한다. 이는 궁극적인 안전성 확보보다는 중간 단계의 난제 해결을 통해 장기적인 AI 안전성 연구에 중요한 이정표를 제시하는 연구이다.