Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Comprendre la dynamique de la capacité du modèle dans l'apprentissage continu

Created by
  • Haebom

Auteur

Supriyo Chakraborty, Krishnan Raghavan

Contour

Cet article présente la capacité effective du modèle (CLEMC) pour les réseaux de neurones en apprentissage continu (AC) en lien avec le dilemme stabilité-plasticité. Nous développons une équation différentielle qui modélise l'évolution de l'interaction entre le réseau de neurones, les données de la tâche et la procédure d'optimisation, et montrons que la capacité effective, c'est-à-dire le compromis stabilité-plasticité, est intrinsèquement non stationnaire. Grâce à des expériences approfondies sur diverses architectures (notamment des réseaux à propagation directe, des réseaux de neurones convolutifs, des réseaux de neurones graphes et des modèles de langage à grande échelle basés sur Transformer avec des millions de paramètres), nous démontrons que la capacité du réseau à représenter de nouvelles tâches diminue lorsque la nouvelle distribution des tâches diffère de la précédente.

Takeaways, Limitations

Takeaways: Cet article offre une nouvelle perspective pour comprendre le dilemme stabilité-plasticité dans l'apprentissage continu et présente un cadre d'analyse du comportement dynamique des réseaux neuronaux grâce à la capacité effective du modèle (CLEMC). Les résultats expérimentaux sur diverses architectures fournissent une base pour l'analyse quantitative de l'impact des nouvelles distributions de tâches.
Limitations: L'équation aux différences présentée peut être un modèle simplifié et ne pas refléter pleinement la complexité des réseaux neuronaux réels. Les résultats expérimentaux peuvent être limités à des architectures et des tâches spécifiques, et des recherches supplémentaires sont nécessaires pour déterminer leur généralisabilité à un plus large éventail d'environnements. Des recherches supplémentaires sont nécessaires sur l'application pratique et les méthodes d'optimisation de CLEMC.
👍