Cet article aborde le manque de compréhension des difficultés d'apprentissage et de l'oubli catastrophique (OC) des réseaux neuronaux en environnements non stationnaires. Nous étudions systématiquement les effets de la taille du modèle et de l'étendue de l'apprentissage des caractéristiques sur l'apprentissage continu. Nous concilions les résultats contradictoires de recherches antérieures en distinguant les approches d'apprentissage paresseux et riches par le biais de la paramétrisation de l'architecture. Nous démontrons qu'augmenter la largeur du modèle n'est bénéfique que lorsqu'elle réduit la quantité d'apprentissage des caractéristiques, augmentant ainsi l'apprentissage paresseux. En utilisant le cadre de la théorie du champ moyen dynamique, nous étudions la dynamique de largeur infinie des modèles dans l'espace d'apprentissage des caractéristiques et caractérisons l'OC en étendant les résultats théoriques antérieurs limités à l'espace d'apprentissage paresseux. Nous étudions les relations complexes entre l'apprentissage des caractéristiques, la non-stationnarité des tâches et l'oubli, et constatons qu'un apprentissage élevé des caractéristiques n'est bénéfique que pour des tâches similaires. Nous démontrons un transfert médié par la similarité des tâches, où les modèles sortent effectivement de l'espace d'apprentissage paresseux avec un faible oubli et entrent dans l'espace d'apprentissage riche avec un oubli significatif. Enfin, nous démontrons que les réseaux neuronaux atteignent des performances optimales à un niveau optimal d'apprentissage des caractéristiques, qui varie selon la non-stationnarité des tâches, et que ce transfert est valable quelle que soit la taille du modèle. Cette étude offre une perspective intégrée sur le rôle de l'échelle et de l'apprentissage des caractéristiques dans l'apprentissage persistant.