본 논문은 대규모 언어 모델(LLM)의 경험적 성공을 설명하기 위한 엄격한 이론적 틀을 제시합니다. LLM의 행동에 대한 이해는 상당히 발전했지만, 기존의 이론적 틀은 통합된 수학적 관점에서 출현 현상을 설명하는 데 있어 단편적입니다. 본 논문은 두 가지 기본적인 결과를 증명함으로써 LLM 아키텍처와 알고리즘 정보 이론(AIT) 간의 첫 번째 공식적인 연결을 확립합니다. 첫째, 훈련 과정은 프로그램 길이 최적화로 해석되는 손실 최소화를 통해 솔로모노프 사전을 계산적으로 근사합니다. 둘째, 다음 토큰 예측은 근사적인 솔로모노프 귀납을 구현합니다. AIT를 활용하여 문맥 내 학습, 몇 샷 학습 및 확장 법칙에 대한 통합적인 이론적 설명을 제공합니다. 또한, 이론적 통찰력을 통해 모델이 예측 신뢰도가 낮은 샘플을 우선시하는 몇 샷 예제 선택에 대한 원칙적인 방법을 제시합니다. 다양한 텍스트 분류 벤치마크에 대한 실험을 통해 고신뢰도 예제를 선택하는 것과 비교하여, 특히 더 작은 모델 아키텍처의 경우 이 전략이 성능 향상을 가져온다는 것을 보여줍니다. 이 틀은 이론적 기초와 실제 LLM 행동 간의 간극을 해소하여 설명력과 미래 모델 개발을 위한 실행 가능한 통찰력을 모두 제공합니다.