본 논문은 인간과 동물의 놀라운 학습 효율성, 특히 최소한의 경험으로 새로운 환경에 적응하는 능력에 대해 연구합니다. 표준 강화 학습 알고리즘의 점진적인 가치 업데이트 방식으로는 이러한 능력을 잘 포착할 수 없습니다. 빠른 적응은 과거 경험을 특정하게 회상하여 새로운 상황에서 의사결정을 안내하는 에피소드 기억에 의존할 가능성이 높습니다. 본 연구는 트랜스포머 모델이 문맥 내 학습을 빠르게 수행하고, 그 키-값 구조가 뇌의 에피소드 기억 시스템과 유사하다는 점에 착안하여, 설치류 행동에서 영감을 얻은 다양한 계획 과제에서 트랜스포머를 문맥 내 강화 학습하도록 훈련시켰습니다. 그 결과, 모델에서 나타나는 학습 알고리즘을 특징짓고, 표현 학습이 문맥 내 구조 학습과 상이한 감각 자극을 가진 환경 간의 표현 정렬을 통해 지원됨을 발견했습니다. 또한 모델이 개발한 강화 학습 전략은 표준 모델-프리 또는 모델-기반 계획으로 해석될 수 없다는 것을 보여주었습니다. 대신, 문맥 내 강화 학습은 모델의 메모리 토큰 내에 중간 계산을 캐싱하고, 의사 결정 시점에 이를 접근하는 방식으로 지원됨을 보였습니다. 전반적으로 메모리가 원시 경험과 캐싱된 계산을 모두 저장하여 유연한 행동을 지원하는 계산 자원으로 작용할 수 있음을 발견했습니다. 더 나아가, 모델에서 개발된 표현은 뇌의 해마-내후각피질 시스템과 관련된 계산과 유사하여, 본 연구 결과가 자연 인지에도 관련이 있음을 시사합니다. 결론적으로, 본 연구는 인공 및 자연 환경에서 문맥 내 학습의 기반이 되는 빠른 적응에 대한 기전적 가설을 제시합니다.