AI 시스템이 에이전트로 널리 사용됨에 따라 안전한 운영이 중요해졌습니다. AI 통제는 AI 에이전트의 안전을 보장하기 위한 한 가지 접근 방식입니다. 본 연구에서는 SHADE-Arena에서 다양한 통제 프로토콜을 체계적으로 평가합니다. 먼저, 신뢰할 수 있는 모델에 위임, 리샘플링, 중요 작업 위임과 같은 파란 팀 프로토콜을 평가했습니다. 리샘플링 및 중요 작업 위임이 가장 효과적이며, 안전성을 50%에서 96%로 향상시켰습니다. 그 후, 리샘플링 전략에 대한 공격 성공률을 높이는 공격 전략을 개발했습니다. 리샘플링 정보를 활용하거나 모니터를 시뮬레이션할 수 있는 공격 정책은 리샘플링 전략에 대한 공격 성공률을 크게 향상시켰지만, 중요 작업 위임은 강력한 공격 전략에도 매우 강력한 방어 능력을 보였습니다.