본 논문은 대규모 언어 모델(LLM)이 생성하는 텍스트의 렉시컬, 의미적, 스타일적 동질성으로 인해 발생하는 지식 붕괴 문제를 다룬다. 기존 연구의 한계를 극복하기 위해, 논문은 LLM 출력에서 실제 세계 주장의 다양성(지식 다양성)을 측정하는 새로운 방법론을 제시하고, 이를 활용하여 광범위한 LLM 지식 붕괴에 대한 실증 연구를 수행한다. 27개의 LLM, 12개국, 155개의 주제, 그리고 실제 사용자 채팅에서 파생된 200개의 프롬프트 변형을 테스트했다. 연구 결과, 최신 모델이 더 다양한 주장을 생성하는 경향이 있지만, 거의 모든 모델이 기본적인 웹 검색보다 지식 다양성이 낮다는 것을 확인했다. 또한, 모델 크기는 지식 다양성에 부정적인 영향을 미치고, 검색 증강 생성(RAG)은 긍정적인 영향을 미치지만 문화적 맥락에 따라 그 효과가 다르다는 것을 발견했다. 마지막으로, 위키피디아와 비교했을 때, 국가별 주장은 현지 언어보다 영어를 더 많이 반영하여 지식 표현의 격차를 보여주었다.