본 논문은 대규모 언어 모델(LLM)이 악의적인 프롬프트에 취약하며, 특히 실제 공격이 여러 턴의 대화로 진행된다는 점에 주목합니다. 이를 해결하기 위해 AutoAdv라는 훈련이 필요 없는 자동화된 멀티턴 jailbreaking 프레임워크를 제시합니다. AutoAdv는 성공적인 공격으로부터 학습하는 패턴 관리자, 실패 모드에 따라 샘플링 매개변수를 조정하는 온도 관리자, 유해한 요청을 위장하고 반복적으로 개선하는 2단계 재작성 전략을 결합하여 Llama-3.1-8B에서 최대 95%의 공격 성공률을 달성합니다.