자기 회귀 언어 모델은 뛰어난 성능을 보이지만, 내부 메커니즘, 훈련이 표현을 형성하고 복잡한 동작을 가능하게 하는 방식을 설명하는 통합 이론은 아직 부족하다. 본 논문에서는 Markov 범주의 언어를 사용하여 단일 단계 생성 과정을 정보 처리 단계의 구성으로 모델링하는 새로운 분석 프레임워크를 제시한다. 이 구성적 관점은 일반적으로 개별적으로 연구되는 언어 모델링의 세 가지 중요한 측면, 즉 훈련 목표, 학습된 표현 공간의 기하학, 그리고 실제 모델 기능을 연결하는 통합된 수학적 언어를 제공한다. 첫째, 본 프레임워크는 투기적 디코딩과 같은 다중 토큰 예측 방법의 성공에 대한 정확한 정보 이론적 근거를 제공하며, 모델의 은닉 상태가 즉시 다음 토큰 너머의 토큰에 대해 포함하는 정보 잉여를 정량화한다. 둘째, 표준 NLL(Negative Log-Likelihood) 목표가 모델이 다음 단어뿐만 아니라 데이터의 고유한 조건부 불확실성도 학습하도록 강제하는 방식을 명확히 하며, 이를 범주적 엔트로피를 사용하여 공식화한다. 주요 결과는 선형 소프트맥스 헤드와 경계된 특징을 가정할 때 NLL을 최소화하면 스펙트럼 정렬이 유도된다는 것을 보여준다. 학습된 표현 공간이 예측 유사성 연산자의 고유 스펙트럼과 정렬된다. 본 연구는 정보가 모델을 통해 어떻게 흐르고, 훈련 목표가 내부 기하학을 어떻게 형성하는지 이해하는 강력한 새로운 시각을 제시한다.