본 논문은 대규모 언어 모델(LLM)의 작동 메커니즘과 스케일링 법칙, 환각 현상 등의 행동을 콜모고로프 복잡도와 섀넌 정보 이론에 기반한 압축과 예측의 관계를 통해 설명하고자 한다. 콜모고로프 구조 함수를 활용하여 LLM의 압축을 두 부분으로 나누는 코딩 과정으로 해석함으로써, 모델 및 데이터 규모가 증가함에 따라 LLM이 어떻게 정보를 획득하고 저장하는지(표면적인 구문 패턴부터 드물게 나타나는 지식 요소까지) 자세히 분석한다. 힙의 법칙과 짚프의 법칙에서 영감을 얻은 계층적 데이터 생성 프레임워크인 Syntax-Knowledge 모델을 제시하고, 베이지안 설정 하에서 이 모델 내의 예측과 압축이 LLM의 다양한 학습 및 스케일링 동작으로 이어짐을 보인다. 이론적 분석을 통해 데이터 및 모델 스케일링 법칙, 훈련 및 미세 조정 중 지식 획득 역학, LLM의 사실적 지식 환각 현상에 대한 직관적이고 원칙적인 설명을 제공하며, 실험 결과를 통해 이론적 예측을 검증한다.