본 논문은 대규모 언어 모델(LLM)의 안전성을 위협하는 탈옥(jailbreak) 문제에 대해 다룬다. 특히, 심리학적 '발 디딤판 효과(foot-in-the-door)' 원리를 활용한 새로운 다회차 탈옥 기법인 FITD를 제안한다. FITD는 중간 단계의 완화된 질문을 통해 모델의 반응을 점진적으로 악의적인 방향으로 유도하여, 결국 금지된 유해한 출력을 얻어낸다. 7개의 널리 사용되는 모델을 대상으로 한 실험 결과, FITD는 평균 94%의 성공률을 달성하여 기존 최첨단 기법들을 능가하는 성능을 보였다. 또한, LLM의 자기 부패 현상을 심층 분석하여 현재의 정렬 전략의 취약성과 다회차 상호 작용의 위험성을 강조한다. 소스 코드는 깃허브에 공개되어 있다.