Este artículo presenta una teoría unificada de los mecanismos internos de los modelos lingüísticos autorregresivos. Utilizando la teoría de categorías de Markov, introducimos un novedoso marco analítico que modela el proceso de generación de un solo paso como una composición de etapas de procesamiento de la información. Esta perspectiva compositiva proporciona un lenguaje matemático unificado que conecta tres aspectos cruciales del modelado lingüístico, que normalmente se estudian por separado: el objetivo de entrenamiento, la geometría del espacio de representación aprendido y la función real del modelo. Específicamente, este marco proporciona una base teórica de la información precisa para el éxito de los métodos de predicción multitoken, como la decodificación especulativa, cuantificando la "sobrecarga de información" que el estado oculto del modelo contiene sobre los tokens posteriores al token inmediatamente siguiente. Además, aclaramos cómo el objetivo estándar de log-verosimilitud negativa (NLL) permite al modelo aprender no solo la siguiente palabra, sino también la incertidumbre condicional inherente de los datos, formalizando este proceso mediante entropía categórica. Nuestro resultado principal demuestra que el entrenamiento NLL funciona como una forma implícita de aprendizaje contrastivo espectral. En arquitecturas de modelos típicas, este simple objetivo de predicción obliga al modelo a crear un espacio de representación geométricamente estructurado, alineando implícitamente las representaciones con el espectro inherente del operador de "similitud de predicción". Esta investigación acorta la distancia entre la teoría del aprendizaje y el éxito práctico de los modelos lingüísticos a gran escala, proporcionando una nueva y potente perspectiva para comprender cómo fluye la información a través del modelo y cómo los objetivos de entrenamiento configuran su geometría interna.