본 논문은 대규모 언어 모델(LLM)의 안전성 향상에도 불구하고, 모델의 추론 능력 발전이 새로운 유형의 탈옥 공격에 취약성을 야기한다는 역설적인 문제점을 제기한다. 특히, 사용자가 정의한 복잡한 암호를 해독하는 능력이 향상되면서, 이를 악용한 탈옥 공격(ACE, LACE)에 더 취약해짐을 보였다. CipherBench라는 벤치마크를 통해 이러한 취약점을 평가하고, LLM의 암호 해독 능력과 LACE 공격 성공률 간의 상관관계를 실험적으로 입증하였다.