본 논문은 Chain-of-Thought (CoT) 추론을 강화한 최신 추론 모델에 대한 탈옥 공격이 대부분 실패하는 현상에 대해 다룹니다. 기존 연구에서 CoT 추론의 효과에 대한 메커니즘이 충분히 탐구되지 않았고, 추론 능력에만 의존하는 것이 보안상의 문제를 야기할 수 있다는 점을 지적합니다. 본 논문은 CoT 추론이 탈옥 공격의 위험성을 실제로 감소시키는지 여부를 질문으로 제기하고, 이에 대한 엄격한 이론적 분석을 통해 CoT 추론이 탈옥 공격의 위험성에 이중적인 영향을 미친다는 것을 보여줍니다. 이러한 이론적 통찰력을 바탕으로 새로운 탈옥 공격 기법인 FicDetail을 제안하고, 실험 결과를 통해 이론적 발견을 검증합니다.