대규모 언어 모델(LLM)은 부정확한 콘텐츠를 포함하는 방대한 인터넷 데이터를 기반으로 훈련되어, 허위 정보를 생성할 수 있다. 이 리뷰는 LLM이 생성한 콘텐츠의 사실적 정확성을 평가하는 방법을 체계적으로 분석한다. 환각, 데이터 세트 제한, 평가 지표의 신뢰성과 같은 주요 과제를 살펴보고, 고급 프롬프팅 전략, 도메인별 미세 조정, 검색 증강 생성(RAG) 방법을 통합한 강력한 사실 확인 프레임워크의 필요성을 강조한다. 2020년부터 2025년까지의 최신 문헌을 평가 방법 및 완화 기술에 초점을 맞춰 5가지 연구 질문을 제시한다. 또한, Instruction tuning, 멀티 에이전트 추론, 외부 지식 접근을 위한 RAG 프레임워크를 검토한다.