본 논문은 대규모 언어 모델(LLM)의 취약성을 식별하고 신뢰성을 구축하기 위한 새로운 레드 팀 접근 방식을 제시합니다. 기존의 자동화된 방법들이 취성적인 프롬프트 템플릿이나 단일 턴 공격에 의존하는 것과 달리, 본 연구는 실제 세계의 적대적 대화의 복잡하고 상호 작용적인 특성을 포착하기 위해 AI가 다른 AI를 전략적으로 '파괴'하도록 훈련하는 새로운 패러다임을 제안합니다. 마르코프 의사 결정 과정(MDP)으로 레드 팀 활동을 공식화하고 계층적 강화 학습(RL) 프레임워크를 사용하여 희소 보상 및 장기적 목표 문제를 효과적으로 해결합니다. 생성형 에이전트는 미세한 토큰 수준의 피해 보상을 통해 일관되고 다중 턴 공격 전략을 학습하여 기존 기준선에서는 발견되지 않은 미묘한 취약성을 발견할 수 있습니다. 이러한 접근 방식은 새로운 최첨단 기술을 설정하고, LLM 레드 팀 활동을 강력한 AI 배포에 필수적인 동적인 궤적 기반 프로세스(단일 단계 테스트가 아닌)로 근본적으로 재구성합니다.