Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

L'importance d'être paresseux : dépasser les limites de l'apprentissage continu

Created by
  • Haebom

Auteur

Jacopo Graldi, Alessandro Breccia, Giulia Lanzillotta, Thomas Hofmann, Lorenzo Noci

Contour

Cet article aborde le manque de compréhension des difficultés d'apprentissage et de l'oubli catastrophique (OC) des réseaux neuronaux en environnements non stationnaires. Nous étudions systématiquement les effets de la taille du modèle et de l'étendue de l'apprentissage des caractéristiques sur l'apprentissage continu. Nous concilions les résultats contradictoires de recherches antérieures en distinguant les approches d'apprentissage paresseux et riches par le biais de la paramétrisation de l'architecture. Nous démontrons qu'augmenter la largeur du modèle n'est bénéfique que lorsqu'elle réduit la quantité d'apprentissage des caractéristiques, augmentant ainsi l'apprentissage paresseux. En utilisant le cadre de la théorie du champ moyen dynamique, nous étudions la dynamique de largeur infinie des modèles dans l'espace d'apprentissage des caractéristiques et caractérisons l'OC en étendant les résultats théoriques antérieurs limités à l'espace d'apprentissage paresseux. Nous étudions les relations complexes entre l'apprentissage des caractéristiques, la non-stationnarité des tâches et l'oubli, et constatons qu'un apprentissage élevé des caractéristiques n'est bénéfique que pour des tâches similaires. Nous démontrons un transfert médié par la similarité des tâches, où les modèles sortent effectivement de l'espace d'apprentissage paresseux avec un faible oubli et entrent dans l'espace d'apprentissage riche avec un oubli significatif. Enfin, nous démontrons que les réseaux neuronaux atteignent des performances optimales à un niveau optimal d'apprentissage des caractéristiques, qui varie selon la non-stationnarité des tâches, et que ce transfert est valable quelle que soit la taille du modèle. Cette étude offre une perspective intégrée sur le rôle de l'échelle et de l'apprentissage des caractéristiques dans l'apprentissage persistant.

Takeaways, Limitations_

Takeaways:
Fournit une compréhension intégrée de l’interaction entre l’échelle du modèle et l’apprentissage des fonctionnalités.
Nous abordons les contradictions des recherches existantes en distinguant les approches d’apprentissage différé et riche.
Nous révélons que le niveau optimal d’apprentissage des fonctionnalités dépend de la non-stationnarité de la tâche et de l’échelle du modèle.
Nous analysons la dynamique de l'apprentissage continu dans les réseaux neuronaux de largeur infinie en utilisant la théorie du champ moyen dynamique.
Limitations:
Cette étude est basée sur une analyse théorique et peut manquer de vérification expérimentale pour des applications pratiques.
Il peut s’agir d’un résultat spécifique à une architecture et à un type de tâche spécifiques.
Des recherches supplémentaires pourraient être nécessaires sur les mesures quantitatives de la similarité des tâches.
👍