본 논문은 인터넷 규모의 훈련 데이터셋으로 훈련된 언어 모델(LM)의 평가를 자동화하는 새로운 방법론을 제안합니다. 기존의 수동으로 구축된 벤치마크의 한계를 극복하기 위해, LM 자체를 활용하여 문서 집합(예: 교과서)만으로 도메인 특정 지식을 자동 평가하는 방법을 제시합니다. 이 방법은 다양한 선택형 및 개방형 질문을 생성하여 LM의 능력을 진단적으로 분석할 수 있으며, 인간이 평가한 질문과 높은 상관관계(Spearman 상관계수 0.96, Pearson 상관계수 0.79)를 보입니다. 본 연구에서는 이 방법론을 최근 arXiv 논문에 적용하여 Gemma3 모델의 놀라울 정도로 높은 성능을 발견했습니다.