본 논문에서는 대규모 언어 모델(LLM)의 불일치성과 지식 격차를 체계적으로 밝히고 측정하는 자동화된 테스트 프레임워크인 KonTest를 제안합니다. KonTest는 지식 그래프를 활용하여 테스트 케이스를 생성하고, 의미적으로 동등한 질의와 테스트 오라클(변형적 또는 본체론적 오라클)을 결합하여 LLM의 세계 지식에 대한 불일치성을 조사하고 측정합니다. 또한 가중치가 부여된 LLM 모델 앙상블을 통해 지식 격차를 완화합니다. Falcon, Gemini, GPT3.5, Llama2 네 가지 최첨단 LLM을 사용한 실험 결과, KonTest는 9979개의 테스트 입력 중 1917개의 오류를 유발하는 입력(19.2%)을 생성했으며, 모든 테스트된 LLM에서 16.5%의 지식 격차를 보였습니다. KonTest의 테스트 세트를 바탕으로 한 완화 방법은 LLM의 지식 격차를 32.48% 줄였습니다. 추가적인 ablation study를 통해 GPT3.5는 지식 구축 효율이 60%-68%에 불과하여 지식 기반 일관성 테스트에 적합하지 않음을 보였습니다.