본 논문은 대규모 언어 모델(LLM)의 안전성 확보에 중점을 두고, 특히 교묘한 프롬프트를 통해 내장된 안전장치를 우회하여 유해한 출력을 유도하는 '탈옥(jailbreak)' 문제에 대한 새로운 해결책을 제시한다. 심리학적 '발 디딤판 기법(foot-in-the-door, FITD)'에서 영감을 얻은 FITD라는 다회차 탈옥 기법을 소개하며, 이는 경미한 초기 요청을 통해 점진적으로 악의적인 의도를 가진 질문으로 끌어올리고 모델의 반응을 스스로 정렬하여 유해한 응답을 유도하는 방식이다. 두 개의 벤치마크를 사용한 실험 결과, 7개의 널리 사용되는 모델에서 평균 94%의 공격 성공률을 달성하여 기존 최첨단 방법을 능가하는 것으로 나타났다. 또한, LLM의 자기 부패 현상에 대한 심층 분석을 제공하여 현재 정렬 전략의 취약성과 다회차 상호 작용의 고유한 위험성을 강조한다. 코드는 깃허브에서 공개되었다.