대규모 언어 모델(LLM)의 안전성 미세 조정을 위해 유해한 행동을 유발하는 다양한 공격 프롬프트를 생성하는 문제를 해결합니다. 수동적인 프롬프트 엔지니어링 대신, 강화 학습(RL)을 사용하여 독성 분류기를 보상으로 하여 공격자 LLM을 훈련하여 이러한 프롬프트를 자동으로 생성합니다. 본 논문은 적응적 탐색을 장려하는 액티브 러닝 패러다임에서 영감을 받아 피해자가 진화함에 따라 공격을 적응시키는 새로운 RL 기반 레드팀 알고리즘인 "Active Attacks"를 소개합니다. Active Attacks는 기존 RL 목표에 원활하게 통합되는 간단한 플러그 앤 플레이 모듈로, 기존 RL 기반 방법(GFlowNets, PPO, REINFORCE 포함)보다 성능이 우수하며, 이전 최고 수준인 GFlowNets에 대한 교차 공격 성공률을 0.07%에서 31.28%로 향상시켰습니다(계산량은 6% 증가).