본 논문은 AI의 능력이 인간의 능력을 뛰어넘는 상황에서, 기존의 SFT나 RLHF와 같은 정렬 기법의 한계를 지적하고, 이를 극복하기 위한 대안으로 재귀적 자기 비판(recursive self-critiquing)을 제시한다. 인간의 평가가 어려운 AI 출력에 대해, 비판의 비판(critique of critique)이 비판 자체보다 쉽다는 가정과 이러한 어려움의 관계가 재귀적으로 성립한다는 가정 하에, 고차원적인 비판을 통해 AI 감독의 확장성을 확보할 수 있음을 주장한다. 인간-AI 및 AI-AI 실험을 통해 재귀적 자기 비판의 가능성을 탐색하고, 그 결과를 바탕으로 확장 가능한 AI 감독을 위한 유망한 접근 방식으로 제시한다.