본 논문은 인공지능(AI) 시스템, 특히 대규모 언어 모델(LLM)이 현실 세계의 확률적 분포에 대한 지식을 얼마나 가지고 있는지를 평가하는 벤치마크를 개발하고 그 결과를 분석한다. LLM이 방대한 텍스트 데이터를 통해 이러한 분포를 학습할 수 있다는 가설을 검증하며, 경제, 건강, 교육, 사회 행동 등 다양한 분야의 실제 데이터에 대한 LLM의 성능을 측정한다. 결과적으로, LLM이 전반적으로 낮은 성능을 보이며 현실 세계의 통계를 자연스럽게 내재화하지 못한다는 것을 밝혀냈다.