본 논문은 대규모 언어 모델(LLM)의 악용 가능성에 대한 보안 위험을 다룹니다. 기존의 대부분의 적대적 테스트 프레임워크는 단일 턴 공격에 초점을 맞추는 반면, 실제 공격자는 일반적으로 여러 턴에 걸쳐 취약성을 조사하고 위협 모델 응답을 기반으로 프롬프트를 반복적으로 조정합니다. 본 논문에서는 \AlgName 이라는 새로운 다중 턴 적대적 테스트 에이전트를 제안합니다. 이 에이전트는 시간에 따라 지식을 축적하고 새로운 공격 목표에 일반화하는 전역 전술 학습과 초기 시도가 실패할 때 특정 목표에 대한 구현을 개선하는 지역 프롬프트 학습이라는 상호 보완적인 학습 차원을 통해 정교한 인간 공격자를 에뮬레이션합니다. 고정된 전략 집합에 의존하는 이전의 다중 턴 접근 방식과 달리, \AlgName 은 에이전트가 새로운 탈옥 전술을 식별하고, 목표 기반 전술 선택 프레임워크를 개발하고, 선택된 전술에 대한 프롬프트 공식을 개선할 수 있도록 합니다. JailbreakBench에 대한 실험적 평가는 제안된 프레임워크의 우수한 성능을 보여주며, 5회의 대화 턴 내에 GPT-3.5-Turbo 및 Llama-3.1-70B에 대해 90% 이상의 공격 성공률을 달성하여 최첨단 기준 모델을 능가합니다. 이러한 결과는 현실적인 다중 턴 시나리오에서 모델의 취약성을 식별하고 악용하는 데 있어 동적 학습의 효과를 강조합니다.