본 논문은 대규모 언어 모델(LLM)의 안전성 위험, 특히 안전 프로토콜을 우회하는 탈옥 공격에 초점을 맞춥니다. 기존의 탈옥 공격 방법들이 프롬프트 엔지니어링 기법을 통해 개선되었지만, 안전성이 강화된 모델에 대해서는 효과가 제한적이며, 사전 정의된 전략 공간에 의해 본질적으로 제한된다는 한계를 지적합니다. 이를 해결하기 위해, 본 논문은 Elaboration Likelihood Model (ELM) 이론에 기반하여 탈옥 전략을 필수 구성 요소로 분해하고, 의도 평가 메커니즘을 갖춘 유전 알고리즘 기반 최적화를 통해 전략 공간을 확장하는 새로운 프레임워크를 제시합니다. 실험 결과, 기존 방법이 전혀 성공하지 못한 Claude-3.5에서 90% 이상의 성공률을 달성했으며, 모델 간 전이성이 뛰어나고 특수 안전 모델보다 평가 정확도가 높음을 보여줍니다. 소스 코드는 공개되어 있습니다.