본 논문은 대규모 언어 모델(LLM)의 악용 가능성과 그에 따른 보안 문제를 다룹니다. 기존의 LLM 탈옥 공격(jailbreak attack)은 주로 시나리오 위장, 프롬프트 난독화, 프롬프트 최적화, 반복적 프롬프트 최적화 등을 통해 악의적인 프롬프트를 은폐하는 방식을 사용합니다. 본 논문에서는 순차적 프롬프트 체인을 이용한 새로운 탈옥 공격 기법인 SequentialBreak를 제안합니다. SequentialBreak는 단일 질의 내에서 순차적인 프롬프트 체인을 통해 LLM이 특정 프롬프트에 집중하고 다른 프롬프트는 무시하도록 유도하여 문맥 조작을 가능하게 합니다. 질문 뱅크, 대화 완성, 게임 환경 등 다양한 시나리오에서 악의적인 프롬프트를 무해한 프롬프트에 삽입하여 LLM이 유해한 응답을 생성하도록 유도하는 것을 보여줍니다. 다양한 실험을 통해 SequentialBreak가 기존 방법보다 훨씬 높은 성공률을 달성함을 입증하고, 오픈소스 및 클로즈드소스 모델 모두에 효과적임을 보입니다.