Cet article aborde la tendance des réseaux neuronaux profonds (DNN) modernes à induire une densité spectrale empirique (ESD) à queue lourde (HT) dans les pondérations de couche. Bien que des études antérieures aient montré que le phénomène HT est corrélé à une bonne généralisation dans les NN à grande échelle, une explication théorique de son apparition manque encore. En particulier, la compréhension des conditions qui déclenchent ce phénomène pourrait aider à élucider l'interaction entre généralisation et densité spectrale de pondération. Cette étude vise à combler cette lacune en présentant un cadre simple et riche pour modéliser l'émergence de l'ESD à queue lourde. Plus précisément, nous présentons un cadre basé sur la théorie qui « crée » des queues lourdes dans l'ESD dans les NN à deux couches et fournissons une analyse systématique de l'émergence de l'ESD à queue lourde sans bruit de gradient. Il s'agit de la première étude à analyser des paramètres sans bruit et à intégrer des taux d'apprentissage (importants) dépendants de l'optimiseur (GD/Adam) dans l'analyse de l'ESD à queue lourde. Nos résultats soulignent le rôle des taux d'apprentissage dans les premières phases de l'apprentissage pour les formes Bulk+Spike et HT de l'ESD, ce qui peut favoriser la généralisation dans les réseaux neuronaux à deux couches. Ces observations, bien que réalisées dans un contexte beaucoup plus simple, permettent de mieux comprendre le comportement des réseaux neuronaux à grande échelle.