Cet article présente une théorie unifiée des mécanismes internes des modèles de langage autorégressifs. En utilisant la théorie des catégories de Markov, nous introduisons un nouveau cadre analytique qui modélise le processus de génération en une seule étape comme une composition d'étapes de traitement de l'information. Cette perspective compositionnelle fournit un langage mathématique unifié reliant trois aspects cruciaux de la modélisation du langage, généralement étudiés séparément : l'objectif d'apprentissage, la géométrie de l'espace de représentation appris et la fonction du modèle. Plus précisément, ce cadre fournit une base théorique de l'information précise pour le succès des méthodes de prédiction multi-tokens telles que le décodage spéculatif, en quantifiant la « surcharge d'information » que l'état caché du modèle contient sur les tokens au-delà du token suivant. De plus, nous clarifions comment l'objectif standard de vraisemblance logarithmique négative (NLL) permet au modèle d'apprendre non seulement le mot suivant, mais aussi l'incertitude conditionnelle inhérente aux données, en formalisant ce processus par l'entropie catégorique. Notre résultat central démontre que l'apprentissage NLL fonctionne comme une forme implicite d'apprentissage contrastif spectral. Pour les architectures de modèles classiques, cet objectif de prédiction simple force le modèle à créer un espace de représentation géométriquement structuré, alignant implicitement les représentations sur le spectre inhérent de l'opérateur de « similarité de prédiction ». Cette recherche comble le fossé entre la théorie de l'apprentissage et la réussite pratique des modèles de langage à grande échelle en offrant une nouvelle perspective puissante pour comprendre comment l'information circule dans le modèle et comment les objectifs d'apprentissage façonnent sa géométrie interne.