Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Dégénérescence du paysage de perte et développement par étapes dans les transformateurs

작성자
  • Haebom

Auteur

Jesse Hoogland, George Wang, Matthew Farrugia-Roberts, Liam Carroll, Susan Wei, Daniel Murfet

Contour

Cet article se concentre sur le phénomène de changement des comportements d'entrée/sortie à mesure que des structures de calcul complexes se forment et se remodèlent au cours de l'apprentissage profond. Ce processus explore les paysages de pertes de grande dimension dans l'espace des paramètres des réseaux neuronaux. Plus précisément, en s'appuyant sur la théorie de l'apprentissage singulier, nous émettons l'hypothèse que le développement du modèle est étroitement lié aux propriétés géométriques locales du paysage de pertes, appelées dégénérescence. En ciblant un modèle de langage de transformateur et un transformateur de régression linéaire spécifique au contexte, nous surveillons la dégénérescence du paysage de pertes tout au long du processus d'apprentissage à l'aide de coefficients d'apprentissage locaux. Nous démontrons que le processus d'apprentissage est divisé en plusieurs périodes, caractérisées par des changements de dégénérescence du paysage de pertes, et que ces changements de dégénérescence correspondent à des changements dans la structure de calcul interne et le comportement d'entrée/sortie du transformateur. Cela fournit des preuves suggérant que dégénérescence et évolution sont liées dans les transformateurs, soulignant le potentiel d'une approche basée sur la dégénérescence pour comprendre l'apprentissage profond moderne.

Takeaways, Limitations

Takeaways:
Nous suggérons que la dégénérescence des paysages de perte joue un rôle crucial dans la compréhension de l’évolution des modèles d’apprentissage profond.
Nous montrons que le processus de formation d’un modèle de transformateur peut être distingué en fonction des changements dans la dégénérescence de la topographie des pertes.
Nous révélons que les changements de dégénérescence sont étroitement liés aux changements de la structure interne et du comportement d’entrée/sortie du modèle.
Il présente de nouvelles possibilités de recherche en apprentissage profond utilisant une perspective basée sur la dégénérescence.
Limitations:
Les preuves soutenant l'hypothèse proposée reposent sur des résultats expérimentaux limités pour le modèle de transformateur. Des recherches complémentaires sur d'autres types de modèles de réseaux neuronaux sont nécessaires.
Une analyse plus approfondie de la généralité et des limites des mesures de dégénérescence utilisant des coefficients d’apprentissage locaux est nécessaire.
Des recherches plus approfondies sont nécessaires pour clarifier la relation causale entre la dégénérescence et l’évolution du modèle.
👍