본 논문은 대규모 언어 모델(LLM)의 정보 이론적 원리를 연구하기 위해 속도-왜곡 함수, 방향 정보 및 Granger 인과 관계 이론을 활용합니다. 토큰을 기본 단위로 하는 의미론적 정보 이론을 개발하여 LLM의 구조 불가지론적 정보 이론적 척도를 정의하고, 토큰 수준의 의미론적 임베딩과 정보 이론적으로 최적의 벡터화 방법을 탐구합니다. 또한, Transformer 아키텍처 및 ELBO, 일반화 오류 바운드, 메모리 용량, 의미론적 정보 척도 등의 성능을 이론적으로 도출할 수 있는 자동 회귀 LLM에 대한 일반적인 정의를 제안합니다. Mamba/Mamba2 및 LLaDA와 같은 다른 아키텍처도 이 프레임워크 내에서 논의됩니다.