본 논문은 대규모 언어 모델(LLM)의 안전성 문제 중 하나인 탈옥(jailbreak) 공격에 대한 새로운 관점을 제시한다. 기존의 접근 방식이 어려움을 겪는 점을 고려하여, 의미상 동등한 입력에 대한 안전성의 일반화 실패라는 핵심적인 실패 메커니즘에 초점을 맞춘다. 설명 가능성, 모델 간 전이 가능성, 목표 간 전이 가능성 등의 추적 가능성 특성을 갖는 공격에 집중하여, 다회차, 다중 이미지, 번역 기반 공격 등 새로운 취약점을 발견하고 이를 통해 다양한 구조가 안전성에 미치는 영향을 체계적으로 비교 분석한다. 또한, 입력 구조를 변경하여 안전성 평가에 유리한 형태로 변환하는 구조 재작성 안전장치(Structure Rewriting Guardrail)를 제안하여 유해한 입력 거부율을 높이고 무해한 입력 거부율은 낮추는 방식으로 방어 가능성을 보여준다. 결론적으로, 본 논문은 범용적인 방어보다 더 추적 가능하지만 장기적인 안전성에 필수적인 중간 과제를 제시함으로써 AI 안전 연구의 중요한 이정표를 제시한다.