본 논문은 대규모 언어 모델(LLM)의 안전하지 않은 행동을 유도하는 탈옥 공격 중, 특히 백색 상자 모델 공격에 사용되는 기울기 기반 탈옥 방법의 전이성을 향상시키는 연구이다. 기울기 기반 최적화 과정 분석을 통해 전이성을 저해하는 제약 조건(응답 패턴 제약 및 토큰 꼬리 제약)을 밝히고, 이를 제거함으로써 기울기 기반 공격의 전이성과 제어성을 크게 향상시켰다. Llama-3-8B-Instruct를 소스 모델로 사용하여 다양한 안전 수준의 여러 타겟 모델에 대한 전이 공격 성공률(T-ASR)을 18.4%에서 50.3%로 높였다.