Cet article se concentre sur le phénomène de changement des comportements d'entrée/sortie à mesure que des structures de calcul complexes se forment et se remodèlent au cours de l'apprentissage profond. Ce processus explore les paysages de pertes de grande dimension dans l'espace des paramètres des réseaux neuronaux. Plus précisément, en s'appuyant sur la théorie de l'apprentissage singulier, nous émettons l'hypothèse que le développement du modèle est étroitement lié aux propriétés géométriques locales du paysage de pertes, appelées dégénérescence. En ciblant un modèle de langage de transformateur et un transformateur de régression linéaire spécifique au contexte, nous surveillons la dégénérescence du paysage de pertes tout au long du processus d'apprentissage à l'aide de coefficients d'apprentissage locaux. Nous démontrons que le processus d'apprentissage est divisé en plusieurs périodes, caractérisées par des changements de dégénérescence du paysage de pertes, et que ces changements de dégénérescence correspondent à des changements dans la structure de calcul interne et le comportement d'entrée/sortie du transformateur. Cela fournit des preuves suggérant que dégénérescence et évolution sont liées dans les transformateurs, soulignant le potentiel d'une approche basée sur la dégénérescence pour comprendre l'apprentissage profond moderne.