본 논문은 다회차 대화를 통해 대규모 언어 모델(LLM)의 안전장치를 우회하는 "탈옥" 공격에 대한 연구를 다룹니다. 다회차 공격은 많은 노력이 필요하기 때문에 확장성이 제한적이라는 점에 착안하여, 다회차 탈옥 프롬프트를 단일 회차 공격으로 변환하는 새로운 방법인 M2S(Multi-turn-to-Single-turn)를 제시합니다. Hyphenize, Numberize, Pythonize 세 가지 변환 전략을 통해 순차적 맥락을 유지하면서 단일 질의로 패키징하는 방식입니다. Multi-turn Human Jailbreak (MHJ) 데이터셋을 사용한 실험 결과, M2S는 기존의 다회차 대화와 비교하여 공격 성공률(ASR)을 유지하거나 향상시키는 것으로 나타났습니다. 특히 StrongREJECT 기반 유해성 평가에서 Mistral-7B에 대해 최대 95.9%의 ASR을 달성했으며, GPT-4o에서는 기존 다회차 프롬프트보다 최대 17.5%의 절대적 개선을 보였습니다. 분석 결과, 특정 적대적 전술은 단일 프롬프트로 통합될 때 구조적 형식 지시를 이용하여 표준 정책 검사를 회피하는 것으로 나타났습니다. 이는 단일 회차 공격이 다회차 공격보다 간편하고 저렴하지만, 동등하거나 더 강력할 수 있음을 시사합니다.