본 논문은 미래 초지능 시스템을 제어하기 위한 핵심 전략으로 제시된 확장 가능한 감독(Scalable oversight)의 확장성 문제를 다룬다. 감독자와 피감독 시스템의 능력을 함수로 하여 성공적인 감독 확률을 정량화하는 프레임워크를 제안한다. 이 프레임워크는 능력 차이가 있는 플레이어 간의 게임으로 감독을 모델링하며, 플레이어는 일반 지능의 조각 선형 함수인 감독 특화 Elo 점수를 갖는다. 수정된 Nim 게임으로 프레임워크를 검증하고, Mafia, Debate, Backdoor Code, Wargames 등 네 가지 감독 게임에 적용하여 도메인 성능이 일반 AI 시스템 능력에 따라 어떻게 달라지는지에 대한 스케일링 법칙을 찾는다. 또한, 신뢰할 수 있는 모델이 신뢰할 수 없는 더 강력한 모델을 감독하고, 이 모델이 다음 단계에서 신뢰할 수 있는 모델이 되는 중첩 확장 가능 감독(NSO)에 대한 이론적 연구를 수행하여 NSO가 성공하는 조건을 확인하고, 감독 성공 확률을 극대화하기 위한 최적 감독 수준을 수치적으로(그리고 일부 경우 분석적으로) 도출한다. 마지막으로 네 가지 감독 게임에 이론을 적용하여 Elo 차이 400에서 NSO 성공률을 분석한다. (Mafia 13.5%, Debate 51.7%, Backdoor Code 10.0%, Wargames 9.4%)