Cet article étudie l'efficacité remarquable de l'apprentissage chez les humains et les animaux, notamment leur capacité à s'adapter à de nouveaux environnements avec un minimum d'expérience. Cette capacité est mal prise en compte par l'approche de mise à jour incrémentale des valeurs des algorithmes standards d'apprentissage par renforcement. L'adaptation rapide repose probablement sur la mémoire épisodique, qui se souvient spécifiquement des expériences passées pour guider la prise de décision dans de nouvelles situations. Dans cette étude, nous entraînons des Transformers à apprendre l'apprentissage par renforcement contextuel sur diverses tâches de planification inspirées du comportement des rongeurs, en nous basant sur le fait que les modèles Transformers effectuent un apprentissage rapide en contexte et que leurs structures clé-valeur sont similaires aux systèmes de mémoire épisodique du cerveau. Par conséquent, nous caractérisons les algorithmes d'apprentissage issus du modèle et constatons que l'apprentissage des représentations est soutenu par l'apprentissage de la structure en contexte et l'alignement des représentations entre environnements avec différents stimuli sensoriels. Nous montrons également que la stratégie d'apprentissage par renforcement développée par le modèle ne peut être interprétée comme une planification standard sans modèle ou basée sur un modèle. Nous démontrons plutôt que l'apprentissage par renforcement contextuel est soutenu par la mise en cache des calculs intermédiaires dans les jetons mémoire du modèle et leur accès au moment de la décision. Globalement, nous constatons que la mémoire peut agir comme une ressource informatique favorisant un comportement flexible en stockant à la fois les expériences brutes et les calculs mis en cache. De plus, les représentations développées dans le modèle sont similaires aux calculs associés au système hippocampique-cortex entorhinal du cerveau, ce qui suggère que les résultats de cette étude sont également pertinents pour la cognition naturelle. En conclusion, cette étude présente une hypothèse mécaniste concernant l'adaptation rapide qui sous-tend l'apprentissage contextuel en environnements artificiels et naturels.