AI 배포가 복잡해지고 고위험해짐에 따라 위험을 추정하는 것이 중요해졌습니다. AI 제어는 이를 위한 프레임워크 중 하나입니다. 그러나 효과적인 제어 평가는 강력한 공격 정책을 이끌어내야 합니다. 이는 컴퓨팅 제약으로 인해 데이터가 부족한 복잡한 에이전트 환경에서 어려울 수 있습니다. 본 연구에서는 다양한 현실적인 제어 환경 데이터셋인 SHADE-Arena에서 공격 정책을 최적화하는 방법을 제시합니다. 공격 능력을 의심 모델링, 공격 선택, 계획 합성, 실행 및 미묘함의 다섯 가지 구성 기술로 분해하고 각 구성 요소를 개별적으로 최적화합니다. 제한된 데이터를 극복하기 위해, 공격 역학의 확률적 모델을 개발하고, 이 시뮬레이션을 사용하여 공격 하이퍼파라미터를 최적화한 다음, 결과를 SHADE-Arena에 전송하는 것을 보여줍니다. 그 결과, 공격 강도가 크게 향상되어 안전 점수가 0.87에서 0.41로 감소했습니다.