본 논문은 대규모 언어 모델(LLMs)의 안전 정렬(safety alignment) 취약성에 대해 다룹니다. 기존 LLMs에서 입력 지시어와 초기 모델 출력 사이에 고정된 템플릿을 채우는 것이 일반적인 관행인데, 이 템플릿이 모델의 취약성의 주요 원인이라고 가정합니다. LLMs의 안전 관련 의사결정이 템플릿 영역의 집계된 정보에 과도하게 의존하며, 이것이 모델의 안전 행동에 큰 영향을 미친다는 것입니다. 이를 "템플릿에 고정된 안전 정렬(template-anchored safety alignment)"이라고 명명하고, 다양한 정렬된 LLMs에서 이 문제가 광범위하게 나타남을 실험을 통해 검증합니다. 또한, 기계적 분석을 통해 이것이 추론 시 탈옥 공격에 대한 모델의 취약성으로 이어지는 과정을 보여주고, 템플릿 영역에서 안전 메커니즘을 분리하는 것이 탈옥 공격에 대한 취약성을 완화하는 데 효과적임을 제시합니다. 향후 연구에서 템플릿 영역에 대한 의존성을 줄이는 더욱 강력한 안전 정렬 기술 개발을 제안합니다.