Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Des pics aux queues lourdes : dévoiler l'évolution spectrale des réseaux neuronaux

Created by
  • Haebom

Auteur

Vignesh Kothapalli, Tianyu Pang, Shenyang Deng, Zongmin Liu, Yaoqing Yang

Contour

Cet article aborde la tendance des réseaux neuronaux profonds (DNN) modernes à induire une densité spectrale empirique (ESD) à queue lourde (HT) dans les pondérations de couche. Bien que des études antérieures aient montré que le phénomène HT est corrélé à une bonne généralisation dans les NN à grande échelle, une explication théorique de son apparition manque encore. En particulier, la compréhension des conditions qui déclenchent ce phénomène pourrait aider à élucider l'interaction entre généralisation et densité spectrale de pondération. Cette étude vise à combler cette lacune en présentant un cadre simple et riche pour modéliser l'émergence de l'ESD à queue lourde. Plus précisément, nous présentons un cadre basé sur la théorie qui « crée » des queues lourdes dans l'ESD dans les NN à deux couches et fournissons une analyse systématique de l'émergence de l'ESD à queue lourde sans bruit de gradient. Il s'agit de la première étude à analyser des paramètres sans bruit et à intégrer des taux d'apprentissage (importants) dépendants de l'optimiseur (GD/Adam) dans l'analyse de l'ESD à queue lourde. Nos résultats soulignent le rôle des taux d'apprentissage dans les premières phases de l'apprentissage pour les formes Bulk+Spike et HT de l'ESD, ce qui peut favoriser la généralisation dans les réseaux neuronaux à deux couches. Ces observations, bien que réalisées dans un contexte beaucoup plus simple, permettent de mieux comprendre le comportement des réseaux neuronaux à grande échelle.

Takeaways, Limitations

Takeaways:
Nous fournissons une compréhension théorique de l’émergence des ESD à queue lourde dans les NN à deux couches.
Nous analysons pour la première fois l’émergence de l’ESD HT dans un environnement sans bruit.
Nous révélons l’effet du taux d’apprentissage sur la forme et la généralisation de l’ESD.
Fournit des informations sur le comportement des réseaux de neurones à grande échelle.
Limitations:
L'analyse est limitée aux NN à deux couches.
Il se peut qu’il ne capture pas entièrement la complexité des réseaux de neurones à grande échelle du monde réel.
La généralisabilité à d’autres stratégies de formation ou structures de réseau peut être limitée.
👍