본 논문은 언어 모델(LM)의 능력이 향상됨에 따라 인간에 의한 대규모 평가 및 감독의 어려움이 증가하는 문제를 다룹니다. 이를 해결하기 위해 다른 언어 모델을 이용한 자동화된 평가 및 감독, 즉 "AI 감독"에 대한 연구를 수행합니다. 모델 유사성이 AI 감독의 두 측면에 미치는 영향을 연구하기 위해, 모델의 오류 중복을 기반으로 하는 LM 유사성 측정 지표인 Chance Adjusted Probabilistic Agreement (CAPA)를 제안합니다. CAPA를 사용하여, LLM-as-a-judge 점수가 판단 모델과 유사한 모델을 선호하는 경향을 보임을 보여주고, 최근의 자기 선호 결과를 일반화합니다. 또한, LM 주석을 이용한 훈련을 연구하여, 약한 감독자와 강력한 학습 모델 간의 상호 보완적인 지식이 "약한-강한 일반화"에서 얻는 이점에 중요한 역할을 한다는 것을 발견합니다. 모델의 능력이 향상됨에 따라 오류를 찾기가 어려워지고 AI 감독에 더 의존하게 될 수 있지만, 모델의 오류가 능력 향상과 함께 더 유사해지는 우려스러운 경향을 관찰합니다. 이는 상관된 오류로 인한 위험을 나타냅니다. 따라서 특히 AI 감독의 새로운 패러다임에서 모델 유사성을 보고하고 수정하는 것이 중요함을 강조합니다.