Cet article explore les raisons pour lesquelles les modèles apprennent différentes stratégies en apprentissage contextuel (ICL) afin d'acquérir une compréhension intégrée des stratégies générales expliquant leur comportement dans diverses conditions expérimentales. Plus précisément, nous expliquons les stratégies ICL apprises par les modèles dans un environnement d'apprentissage mixte de tâches variées, largement utilisé dans les études existantes, dans le cadre d'un prédicteur bayésien. Ce prédicteur se compose d'un prédicteur de mémorisation (avec une hypothèse a priori discrète) et d'un prédicteur de généralisation (où l'hypothèse a priori correspond à la distribution des tâches sous-jacentes). Adoptant la perspective de l'analyse rationnelle, nous développons un cadre bayésien hiérarchique qui explique le comportement de l'apprenant comme une adaptation optimale aux données compte tenu des contraintes de calcul. Ce cadre prédit la prochaine prédiction du jeton du Transformateur de manière quasi parfaite tout au long du processus d'apprentissage, sans accéder aux pondérations du modèle. Dans ce cadre, nous considérons l'apprentissage antérieur comme le processus de mise à jour des probabilités a posteriori de diverses stratégies, et le comportement au moment de l'inférence comme une moyenne a posteriori pondérée des prédictions de ces stratégies. En nous appuyant sur des hypothèses courantes concernant la dynamique d'apprentissage des réseaux neuronaux, nous présentons explicitement un compromis entre perte et complexité parmi les stratégies candidates. Autrement dit, outre la qualité de l'explication des données, la mesure dans laquelle un modèle privilégie la mise en œuvre d'une stratégie particulière est déterminée par la complexité de cette stratégie. Cela fournit une bonne explication du phénomène bien connu d'ICL, tout en fournissant de nouvelles prédictions, comme une tendance superlinéaire dans l'échelle de temps allant de la généralisation à la mémorisation à mesure que la variété des tâches augmente. Globalement, cette étude fournit une explication explicative et prédictive de l'ICL basée sur le compromis entre perte de stratégie et complexité.