본 논문은 자기회귀 언어 모델의 내부 메커니즘에 대한 통합 이론을 제시합니다. 마르코프 범주론을 사용하여 단일 단계 생성 과정을 정보 처리 단계의 구성으로 모델링하는 새로운 분석 프레임워크를 도입합니다. 이 구성적 관점은 훈련 목표, 학습된 표현 공간의 기하학, 실제 모델 기능 등 일반적으로 개별적으로 연구되는 언어 모델링의 세 가지 중요한 측면을 연결하는 통합된 수학적 언어를 제공합니다. 구체적으로, 이 프레임워크는 추측적 디코딩과 같은 다중 토큰 예측 방법의 성공에 대한 정확한 정보 이론적 근거를 제공하고, 모델의 은닉 상태가 즉각적인 다음 토큰을 넘어 토큰에 대해 포함하는 "정보 과잉"을 정량화합니다. 또한 표준 음의 로그 가능도(NLL) 목표가 모델로 하여금 다음 단어뿐만 아니라 데이터의 고유한 조건부 불확실성도 학습하도록 하는 방법을 명확히 하고, 범주적 엔트로피를 사용하여 이 과정을 공식화합니다. 중심 결과는 NLL 훈련이 암시적 형태의 스펙트럼 대조 학습으로 기능한다는 것을 보여줍니다. 일반적인 모델 아키텍처의 경우, 이 단순한 예측 목표는 모델로 하여금 기하학적으로 구조화된 표현 공간을 조각하도록 강제하고, "예측 유사성" 연산자의 고유 스펙트럼과 암시적으로 표현을 정렬하게 합니다. 이 연구는 정보가 모델을 통해 어떻게 흐르고 훈련 목표가 내부 기하학을 어떻게 형성하는지 이해하는 강력한 새로운 렌즈를 제공하여 학습 이론과 대규모 언어 모델의 실질적인 성공 사이의 간극을 해소합니다.