본 논문은 AI 모델의 신뢰할 수 있는 인간 감독의 어려움을 해결하기 위해, Debate, Critique, Prover-Verifier 게임 등의 확장 가능한 AI 감독 접근 방식을 평가하기 위한 다섯 가지 다양한 데이터셋(FindTheFlaws)을 제시합니다. FindTheFlaws는 의학, 수학, 과학, 코딩, Lojban 언어 등 다양한 분야를 포함하며, 각 데이터셋은 전문가가 검증한 정답과 오류가 있는 답변 및 오류 부분에 대한 주석을 포함합니다. 논문에서는 최첨단 모델의 비판 능력을 평가하고, 특정 데이터셋에서 성능이 저조한 모델을 더 능력 있는 모델의 판사/검증자로 활용하는 확장 가능한 감독 실험에 활용할 수 있는 성능 범위를 관찰합니다. 또한, 일부 과제/데이터셋 조합에서는 전문가 기준이 최고 모델 성능을 능가하여 확장 가능한 감독 실험에 더 유용함을 보여줍니다.