본 논문은 대규모 언어 모델(LLM)의 사실적 환각(factual hallucinations) 문제를 다룬다. LLM이 부정확하거나 허위의 내용을 생성하는 사실적 환각은 신뢰성과 사용자 신뢰를 저해한다. 기존 연구는 LLM이 거짓 진술을 생성할 때 내부 상태에 진실성에 대한 정보가 인코딩된다는 것을 시사하지만, 대부분 현실성이 부족한 합성 데이터셋에 의존하여 모델 자체가 생성한 텍스트의 사실 정확도 평가의 일반화에 한계가 있다. 본 연구는 더욱 현실적이고 어려운 데이터셋을 생성하여 기존 연구 결과를 검증한다. 구체적으로, 표 형태 데이터에서 타당한 참/거짓 문장을 샘플링하는 전략과 질의응답 데이터 컬렉션에서 현실적인 LLM 의존적 참/거짓 데이터셋을 생성하는 절차를 도입한다. 두 개의 오픈소스 LLM에 대한 분석을 통해 기존 연구 결과가 부분적으로 검증되지만, LLM 생성 데이터셋으로의 일반화는 여전히 어렵다는 것을 밝혀낸다. 이 연구는 LLM의 사실성에 대한 미래 연구의 기반을 마련하고 더욱 효과적인 평가를 위한 실용적인 지침을 제공한다.