본 논문은 대규모 언어 모델(LLM)의 안전성 위험, 특히 안전 프로토콜을 우회하는 탈옥 공격에 초점을 맞추고 있습니다. 기존의 탈옥 공격 방법들이 프롬프트 엔지니어링 기법을 통해 개선되었지만, 안전성을 고려하여 설계된 모델에 대한 효과는 제한적이며, 사전 정의된 전략 공간에 의해 본질적으로 한계가 있다는 점을 지적합니다. 이에 본 논문은 ELM 이론에 기반하여 탈옥 전략을 필수 구성 요소로 분해하고 의도 평가 메커니즘을 갖춘 유전자 기반 최적화를 개발하는 새로운 프레임워크를 제시합니다. 실험 결과, 기존 방법이 완전히 실패하는 Claude-3.5에서 90% 이상의 성공률을 달성하는 등 전례 없는 탈옥 능력을 보여주었으며, 모델 간 전이성이 뛰어나고 특수 안전 장치 모델보다 평가 정확도가 높음을 확인했습니다. 소스 코드는 공개되어 있습니다.