본 논문은 실제 환경에서 사용되는 대규모 언어 모델(LLM)의 안전성과 신뢰성에 대한 문제를 다루며, 다중 턴 공격 전략의 중요성을 강조한다. 특히, 기존의 단일 턴 공격 및 정적인 패턴 기반의 다중 턴 공격의 한계를 지적하고, 실제 인간의 공격 방식을 시뮬레이션하는 학습 기반의 다중 턴 공격 프레임워크인 Siren을 제안한다. Siren은 MiniMax 기반 훈련 세트 구성, 지도 학습 및 직접 선호도 최적화를 통한 공격자 훈련, 공격자와 대상 LLM 간의 상호 작용의 세 단계로 구성된다. 실험 결과, Siren은 LLaMA-3-8B를 공격자로, Gemini-1.5-Pro를 대상으로 사용했을 때 90%의 공격 성공률(ASR)을 달성했으며, Mistral-7B로 GPT-4o를 공격했을 때 70%의 ASR을 기록하여, 단일 턴 공격 방식보다 뛰어난 성능을 보였다. 또한, Siren은 GPT-4o를 공격자로 사용하는 기존 다중 턴 방식과 유사한 성능을 7B 규모 모델로 달성하며, 공격 목표에 더 잘 부합하는 분해 전략을 사용한다.