본 논문은 대규모 언어 모델(LLM)의 사실적 환각(factual hallucinations) 문제를 해결하기 위한 연구로, 기존 연구에서 사용된 인공적인 데이터셋의 한계를 극복하고자 현실적인 데이터셋을 생성하는 방법을 제시합니다. 구체적으로, 표 형태의 데이터에서 신뢰할 만한 참/거짓 문장을 추출하는 전략과 질의응답 데이터셋으로부터 현실적인 LLM 의존적 참/거짓 데이터셋을 생성하는 절차를 소개합니다. 두 개의 오픈소스 LLM을 분석하여 기존 연구 결과의 일부를 검증하지만, LLM이 생성한 데이터셋으로의 일반화는 여전히 어렵다는 것을 밝힙니다. 이는 LLM의 사실성에 대한 향후 연구의 기반을 마련하고, 보다 효과적인 평가를 위한 실용적인 지침을 제공합니다.