대규모 언어 모델(LLM)의 환각 문제는 특히 개방형 질문 답변에서 중요한 과제이다. 본 논문은 사전 훈련 데이터 노출과 환각 사이의 관계에 주목하여, 질문 및 생성된 답변의 어휘 훈련 데이터 범위를 환각 감지에 사용할 수 있는지 연구한다. RedPajama의 1.3조 토큰 사전 훈련 코퍼스에 대한 확장 가능한 접미사 배열을 구축하여 n-gram 통계를 추출하고, 세 개의 QA 벤치마크에서 환각 감지 효과를 평가한다. 어휘 기반 특징은 단독으로는 약한 예측 변수이지만, 로그 확률과 결합될 때, 특히 높은 내재적 모델 불확실성을 가진 데이터 세트에서 약간의 개선을 보였다.