본 논문은 대규모 언어 모델(LLM)을 판정자로 활용하여 텍스트 품질, 특히 환각(hallucination) 평가를 수행하는 기존 연구의 한계를 지적합니다. 기존 연구는 단일 맥락 평가에 초점을 맞춘 반면, 실제 환각은 다양한 맥락이 혼합된 형태로 나타납니다. 따라서 본 연구는 요약 과제를 통해 다양한 규모의 직접 생성 및 검색 기반 모델을 사용하여 혼합 맥락 환각, 특히 사실적 환각과 비사실적 환각을 구분하는 LLM의 능력을 종합적으로 평가합니다. 실험 결과, LLM의 내재적 지식이 환각 평가에 편향을 유발하며, 특히 사실적 환각 탐지에 큰 영향을 미쳐 성능 저하의 주요 원인이 됨을 밝힙니다. 핵심적인 문제는 정확한 혼합 맥락 환각 평가를 위해 LLM의 내재적 지식과 외부 맥락 간의 균형을 맞추는 효과적인 지식 활용에 있다는 것을 제시합니다.