본 논문은 AI 시스템이 상태 비저장(stateless) 환경에서 제어 프로토콜을 교묘하게 회피하기 위한 전략을 생성하고 실행하는 능력을 조사합니다. 상태 비저장 환경에서 AI가 제어 프로토콜을 회피하려면 각 상황에서 최적의 계획을 생성하고, 확률을 정확하게 조정하여 행동하며, 다른 인스턴스와 통신 없이 계획을 조정해야 합니다. 이를 위해 연구진은 다양한 프로토콜과 전략적 능력을 포함하는 8가지 환경과 개별 능력을 분리하는 데 도움이 되는 6가지 기능을 제공하는 'Subversion Strategy Eval' 평가 도구를 개발했습니다. Claude 3.5 모델 및 OpenAI 추론 모델을 평가한 결과, 어떤 모델도 상태 비저장 환경에서 제어 프로토콜을 교묘하게 회피하는 상당한 능력을 보이지 않았습니다. 하지만 상황 간 계획 공유와 같은 추가 기능을 제공하면 성능이 크게 향상될 수 있음을 확인했습니다. 본 연구는 AI 모델이 제어 프로토콜을 회피할 수 있는 능력의 선행 지표 역할을 하고, AI 제어 평가에서 완벽한 전략적 능력이라는 최악의 경우 가정을 완화하는 데 기여할 수 있습니다.