Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Les stratégies d'apprentissage contextuel émergent de manière rationnelle

Created by
  • Haebom

Auteur

Daniel Wurgaft, Ekdeep Singh Lubana, Core Francisco Park, Hidenori Tanaka, Gautam Reddy, Noah D. Goodman

Contour

Cet article explore les raisons pour lesquelles les modèles apprennent différentes stratégies en apprentissage contextuel (ICL) afin d'acquérir une compréhension intégrée des stratégies générales expliquant leur comportement dans diverses conditions expérimentales. Plus précisément, nous expliquons les stratégies ICL apprises par les modèles dans un environnement d'apprentissage mixte de tâches variées, largement utilisé dans les études existantes, dans le cadre d'un prédicteur bayésien. Ce prédicteur se compose d'un prédicteur de mémorisation (avec une hypothèse a priori discrète) et d'un prédicteur de généralisation (où l'hypothèse a priori correspond à la distribution des tâches sous-jacentes). Adoptant la perspective de l'analyse rationnelle, nous développons un cadre bayésien hiérarchique qui explique le comportement de l'apprenant comme une adaptation optimale aux données compte tenu des contraintes de calcul. Ce cadre prédit la prochaine prédiction du jeton du Transformateur de manière quasi parfaite tout au long du processus d'apprentissage, sans accéder aux pondérations du modèle. Dans ce cadre, nous considérons l'apprentissage antérieur comme le processus de mise à jour des probabilités a posteriori de diverses stratégies, et le comportement au moment de l'inférence comme une moyenne a posteriori pondérée des prédictions de ces stratégies. En nous appuyant sur des hypothèses courantes concernant la dynamique d'apprentissage des réseaux neuronaux, nous présentons explicitement un compromis entre perte et complexité parmi les stratégies candidates. Autrement dit, outre la qualité de l'explication des données, la mesure dans laquelle un modèle privilégie la mise en œuvre d'une stratégie particulière est déterminée par la complexité de cette stratégie. Cela fournit une bonne explication du phénomène bien connu d'ICL, tout en fournissant de nouvelles prédictions, comme une tendance superlinéaire dans l'échelle de temps allant de la généralisation à la mémorisation à mesure que la variété des tâches augmente. Globalement, cette étude fournit une explication explicative et prédictive de l'ICL basée sur le compromis entre perte de stratégie et complexité.

Takeaways, Limitations

Takeaways:
Dans l'ICL, diverses stratégies de modèle sont expliquées de manière exhaustive dans un cadre de prédiction bayésien.
Prédire avec précision la prochaine prédiction de jeton d'un transformateur à l'aide d'un cadre bayésien hiérarchique.
Décrivez le processus de pré-apprentissage et le comportement du temps d'inférence en termes de probabilités postérieures et de moyennes pondérées.
Présentez explicitement le compromis entre perte stratégique et complexité, expliquez le phénomène ICL et fournissez de nouvelles prédictions.
Prédire une tendance superlinéaire dans l’échelle de temps de transition de la généralisation à la mémorisation à mesure que la variété des tâches augmente.
Limitations:
La possibilité que le cadre soit limité à un type spécifique de réseau neuronal (Transformer).
Les hypothèses de l’analyse rationnelle prenant en compte les contraintes de calcul peuvent ne pas correspondre parfaitement au processus d’apprentissage du modèle réel.
Une validation expérimentale supplémentaire de la capacité de généralisation du cadre proposé est nécessaire.
Des recherches supplémentaires sont nécessaires sur l’applicabilité à d’autres types de stratégies ou de modèles ICL.
👍