본 논문은 대규모 언어 모델(LLM)의 적대적 테스트에 필요한 수작업 부담을 크게 줄이기 위해, 다회차 적대적 "탈옥" 프롬프트를 단일 회차 질문으로 통합하는 새로운 프레임워크를 제시합니다. 다회차 인간 탈옥은 높은 공격 성공률을 보여주지만 상당한 인력과 시간을 필요로 합니다. 본 논문에서 제시하는 다회차 대 단일회차(M2S) 방법론인 Hyphenize, Numberize, Pythonize는 다회차 대화를 구조화된 단일 회차 프롬프트로 체계적으로 재형식화합니다. 반복적인 상호 작용을 제거했음에도 불구하고, 이러한 프롬프트는 적대적 잠재력을 유지하고 종종 향상시킵니다. Multi-turn Human Jailbreak (MHJ) 데이터셋에 대한 광범위한 평가에서 M2S 방법은 여러 최첨단 LLM에서 70.6%에서 95.9%의 공격 성공률을 달성합니다. 놀랍게도 단일 회차 프롬프트는 원래의 다회차 공격보다 최대 17.5%p 더 높은 성능을 보이며, 평균 토큰 사용량은 절반 이상 감소시킵니다. 추가 분석에 따르면, 열거된 구조 또는 코드와 같은 구조에 악의적인 요청을 포함시키는 것이 "맥락적 맹점"을 악용하여 기본 보호 장치와 외부 입력-출력 필터를 모두 우회합니다. M2S 프레임워크는 다회차 대화를 간결한 단일 회차 프롬프트로 변환하여 대규모 적대적 테스트를 위한 확장 가능한 도구를 제공하고 현대 LLM 방어의 중요한 약점을 드러냅니다.