본 논문은 AI 시스템이 의도적으로 용납할 수 없는 결과를 초래하는 것을 방지하기 위한 AI 제어 프로토콜의 효과적인 평가 방법을 제시합니다. 기존 연구에서는 인간이 작성한 전략을 따르는 AI를 사용하여 프로토콜을 무력화하는 방식으로 평가했지만, 본 논문에서는 AI 시스템이 상태 비저장(상황 간 공유 메모리 없음) 환경에서 자체적으로 전략을 생성하고 행동하여 제어 프로토콜을 무력화하는 능력을 조사합니다. 이를 위해 AI 시스템은 각 상황에서 최적의 계획을 생성하고, 잘 보정된 확률로 행동하며, 통신 없이 다른 인스턴스와 계획을 조정해야 합니다. 연구진은 다양한 프로토콜과 전략적 능력을 포괄하는 8가지 환경과 개별 능력을 분리하는 데 도움이 되는 6가지 기능을 포함하는 Subversion Strategy Eval 평가 도구를 개발하고, Inspect-AI에 구현하여 오픈소스로 공개했습니다. Claude 3.5 모델(유용한 버전 포함)과 OpenAI 추론 모델을 평가한 결과, 어떤 모델도 상태 비저장 환경에서 제어 프로토콜을 무력화하기 위한 전략을 세우는 상당한 능력을 보여주지 못했습니다. 하지만 상황 간 계획 공유와 같은 추가 기능을 제공하면 성능이 크게 향상될 수 있음을 확인했습니다. 본 연구는 모델이 제어 프로토콜을 무력화할 수 있는 시점을 예측하는 선행 지표 역할을 하고, AI 제어 평가에서 완벽한 전략적 능력을 가정하는 최악의 시나리오 가정을 완화하는 데 기여할 것으로 기대됩니다.