본 논문은 장문 텍스트 생성에 널리 사용되는 대규모 언어 모델(LLM)의 응답에서 사실 오류가 신뢰성을 저해한다는 점을 지적하며, 응답 길이가 사실성에 미치는 영향을 체계적으로 조사한 연구이다. 연구진은 비용 효율적이면서도 인간 평가와 높은 일치율을 보이는 자동화된 2단계 장문 사실성 평가 프레임워크를 제시하고, 이를 이용한 통제된 실험을 통해 응답 길이가 길어질수록 사실 정확도가 낮아지는 길이 편향(length bias)의 존재를 확인하였다. 또한 오류 전파, 긴 문맥, 사실 고갈 세 가지 가설을 실증적으로 검토하여, 모델이 점차 더 신뢰할 수 있는 지식을 고갈시키는 '사실 고갈'이 다른 두 가설보다 사실성 저하의 주요 원인임을 밝혔다.