대규모 언어 모델(LLM)의 발전에도 불구하고, 환각(hallucination) 현상으로 인해 실제 응용에 어려움을 겪고 있다. 기존 환각 평가 벤치마크는 주로 수동 주석에 의존하여 자동화 및 비용 효율성이 떨어진다. 본 논문은 지식 문서 기반의 에이전트 프레임워크인 HaluAgent를 제시하여 자동으로 세분화된 QA 데이터셋을 생성한다. 수동 규칙 설계 및 프롬프트 최적화를 통해 데이터 품질을 향상시키며, 웹 스크래핑을 통해 얻은 1,399개 지식 문서를 기반으로 60,702개 항목의 중국어 QA 환각 벤치마크 C-FAITH를 구축한다. 16개 주요 LLM을 C-FAITH를 사용하여 평가하고, 상세한 실험 결과 및 분석을 제공한다.