본 논문은 고위험 실제 애플리케이션에 에이전트 AI를 빠르게 통합함에 따라 강력한 감독 메커니즘이 필요하다는 점을 강조합니다. AI 제어(AIC) 분야는 이러한 감독 메커니즘을 제공하고자 하지만, 실제 적용은 구현 오버헤드에 크게 의존합니다. 본 연구는 제어세(Control tax)라는 개념을 도입하여 이 문제를 더 잘 연구합니다. 제어세는 AI 파이프라인에 제어 조치를 통합하는 데 드는 운영 및 재정적 비용을 의미합니다. 본 논문은 AIC 분야에 세 가지 주요 기여를 합니다. 첫째, 제어세를 정량화하고 분류기 성능을 안전 보장과 매핑하는 이론적 프레임워크를 제시합니다. 둘째, 공격자 모델이 코드에 미묘한 백도어를 삽입하는 반면 감시 모델이 이러한 취약성을 감지하려고 시도하는 적대적 환경에서 최첨단 언어 모델에 대한 포괄적인 평가를 수행합니다. 셋째, 제어 프로토콜에 대한 경험적 재정적 비용 추정치를 제공하고 감사 예산과 같은 실질적인 제약 조건을 고려하면서 안전성과 비용 효율성의 균형을 맞추는 최적화된 모니터링 전략을 개발합니다. 이 프레임워크를 통해 실무자는 안전 보장과 비용을 체계적으로 연결하여 다양한 배포 환경에서 원칙에 입각한 경제적 타당성 평가를 통해 AIC를 발전시킬 수 있는 정보에 입각한 결정을 내릴 수 있습니다.