本論文では、人間と動物の驚くべき学習効率、特に最小限の経験で新しい環境に適応する能力について研究します。標準強化学習アルゴリズムの徐々に価値を更新する方法では、これらの能力をうまく捉えることはできません。迅速な適応は、過去の経験を具体的に思い出し、新しい状況で意思決定を導くエピソードの記憶に依存する可能性が高いです。この研究は、トランスモデルが急速にコンテキスト内学習を行い、そのキー値構造が脳のエピソード記憶システムに似ていることに着目し、げっ歯類の行動に触発されたさまざまな計画課題でトランスをコンテキスト内で強化学習するように訓練しました。その結果,モデルに現れる学習アルゴリズムを特徴づけ,表現学習が文脈内構造学習と異なる感覚刺激をもつ環境間の表現アラインメントによってサポートされることを見出した。また、モデルが開発した強化学習戦略は、標準モデルフリーまたはモデルベースの計画として解釈できないことを示しました。代わりに、コンテキスト内強化学習は、モデルのメモリトークン内に中間計算をキャッシュし、意思決定の時点でこれに近づくようにサポートされることを示しました。全体的に、メモリは生の経験とキャッシュされた計算の両方を保存し、柔軟な動作をサポートする計算リソースとして機能できることを発見しました。さらに、モデルで開発された表現は、脳の海馬 - 嗅覚皮質システムに関連する計算に似ており、この研究の結果が自然な認知にも関連していることを示唆しています。結論として、この研究は、人工および自然環境における文脈内学習の基盤となる迅速な適応に対するメカニズム仮説を提示します。