본 논문은 AI의 능력이 인간의 능력을 넘어서는 상황에서, 기존의 SFT나 RLHF와 같은 정렬 기법의 한계를 지적하고, 이를 극복하기 위한 새로운 접근법으로 재귀적 자기 비판(recursive self-critiquing)을 제시한다. 인간의 평가가 어려운 복잡한 AI 출력에 대해, 비판(critique)보다 비판에 대한 비판(critique of critique)이 더 쉽다는 가설과 이러한 어려움의 관계가 재귀적으로 성립한다는 가설을 바탕으로, 인간-인간, 인간-AI, AI-AI 실험을 통해 재귀적 자기 비판의 효용성을 검증한다. 실험 결과는 두 가설을 뒷받침하며, 재귀적 자기 비판이 확장 가능한 AI 감독 방식으로서 유망함을 시사한다.