본 논문은 대규모 언어 모델(LLM)의 사실적 정확성에 대한 문제를 해결하기 위해, 특히 생물의학, 법, 교육 등 위험도가 높은 분야에서 LLM의 출력이 가진 사실성을 평가하고 향상시키는 체계적인 접근 방식을 제시한다. 이를 위해, 대규모 장문 데이터셋, 다중 에이전트 검증 메커니즘, 가중 평가 지표를 통합한다. 구체적으로, 중국어 장문 사실성 데이터셋인 LongHalluQA를 구축하고, 토론 기반 다중 에이전트 검증 시스템인 MAD-Fact를 개발하였다. 또한, 장문 텍스트 내 주장의 중요도를 파악하기 위한 사실 중요도 계층 구조를 도입했다. 두 개의 벤치마크 실험을 통해, 더 큰 LLM이 일반적으로 높은 사실적 일관성을 유지하며, 중국산 모델이 중국어 콘텐츠에서 우수함을 보임을 확인했다.