본 논문은 대규모 언어 모델(LLM)의 안전 프로토콜을 우회하여 유해한 콘텐츠 생성이나 민감한 데이터 유출을 유도하는 적대적 공격(탈옥, jailbreak)에 대한 새로운 공격 기법을 제시합니다. 기존의 탈옥 기법과 달리, LLM의 출력 제약을 강화하기 위해 설계된 '프리필링(prefilling)' 기능을 활용하여 후속 토큰의 확률 분포를 직접 조작함으로써 모델의 출력을 제어합니다. 두 가지 공격 변형, 즉 보편적인 프리필 텍스트를 사용하는 정적 프리필링(SP)과 공격 성공률을 극대화하기 위해 프리필 텍스트를 반복적으로 최적화하는 최적화 프리필링(OP)을 제안합니다. AdvBench 벤치마크를 사용하여 6개의 최첨단 LLM에 대한 실험을 통해 제안된 기법의 효과를 검증하고, 기존 탈옥 기법과 결합했을 때 공격 성공률을 상당히 높일 수 있음을 보여줍니다. 특히 OP 기법은 특정 모델에서 최대 99.82%의 공격 성공률을 달성하여 기준 방법을 상당히 능가합니다. 본 논문은 프리필링 기능의 적대적 악용을 완화하기 위한 강력한 콘텐츠 검증 메커니즘의 필요성을 강조하며, 새로운 LLM 탈옥 공격 기법을 소개합니다. 모든 코드와 데이터는 공개적으로 이용 가능합니다.